gatsby 发表于 2020-10-2 21:16:51

做大型多语言采集站哪种方案好些?

采集量可能比较大,在千万以上,能想到两个解决方法,不知道哪更合适些,请指教。
1,只采集源语言,其他语言版本用google api翻译并生成,网站本身不存储其它语言版本的内容,这样便于管理成本也小,缺点就是时刻依赖google api,似乎不可控。
2,采集源语言的时候并翻译成多种语言版本然后再发布,但这样成本就成倍数增长,数据库也占用太多,负载重。

请问哪个解决方法要好些,一般都是怎么处理这样的问题的。另外不管1和2这样动态的网页可否交给cloudflare来缓存要好些?
谢谢

laoyebin 发表于 2020-10-4 22:31:08

gatsby 发表于 2020-10-4 21:24
正是准备使用lnmp搭建wordpress,这可如何是好

别想那么远,干了再说,说不定你几万数据时候就已经放弃这个站了:lol

cxd44 发表于 2020-10-2 21:58:11

采集一个版本,之后用翻译插件

gatsby 发表于 2020-10-2 22:19:10

cxd44 发表于 2020-10-2 21:58
采集一个版本,之后用翻译插件

用第三方插件的话,一般翻译版本的网站都是通过第三方插件处理翻译网站内容后中转到自己的网站,怕第三方停止服务或者流量大的话不知道是否会有影响。

东方人 发表于 2020-10-2 22:44:17

现在硬盘那么便宜。
说说我的方法吧,买个德国VPS,然后采集英语,入库。
再翻译成德语,法语,西班牙语,葡萄牙语等等,放入不同字段。
然后搞个火车头免登陆接口发布。
打完,收工。

gatsby 发表于 2020-10-2 23:20:06

东方人 发表于 2020-10-2 22:44
现在硬盘那么便宜。
说说我的方法吧,买个德国VPS,然后采集英语,入库。
再翻译成德语,法语,西班牙语, ...

抱歉,资质愚钝没太明白。
采集入库后怎么翻译?“放入不同字段。然后搞个火车头免登陆接口发布”也没明白:D
另外火车头采集千万数据的话采集排重是不是比较困难,采集也可能比较慢。
我是想学下scrapy分布式抓取用布隆过滤器。

yrj 发表于 2020-10-2 23:51:20

我的经验:全部翻译好入库,硬盘的成本是最低的,不要丢了西瓜捡了芝麻,cf可以用,但是不要想着靠cf来节省硬盘,千万级内容,你系统的负载能力要好,否则并发上来就跪了。根本等不到用cf。爬虫就爬死了。

gatsby 发表于 2020-10-3 00:34:04

yrj 发表于 2020-10-2 23:51
我的经验:全部翻译好入库,硬盘的成本是最低的,不要丢了西瓜捡了芝麻,cf可以用,但是不要想着靠cf来节省 ...

非常感谢,wordpress可行不?

yrj 发表于 2020-10-3 03:23:41

gatsby 发表于 2020-10-3 00:34
非常感谢,wordpress可行不?

wordpress 我用的不多,堆缓存也许可以。

kongkong0926 发表于 2020-10-3 07:26:46

东方人 发表于 2020-10-2 22:44
现在硬盘那么便宜。
说说我的方法吧,买个德国VPS,然后采集英语,入库。
再翻译成德语,法语,西班牙语, ...

大神用的什么翻译api?是免费的吗

54clz 发表于 2020-10-3 09:04:59

明显第2种

gatsby 发表于 2020-10-3 11:46:12

54clz 发表于 2020-10-3 09:04
明显第2种

好的,就使用本地存储数据靠谱些。

buyabag 发表于 2020-10-3 17:30:02

这么大的量级?你先评估一下对数据库优化的水平,千万级可是另外一个门槛了

golang 发表于 2020-10-3 21:23:52

gatsby 发表于 2020-10-3 00:34
非常感谢,wordpress可行不?

。。。。。看到你说WordPress ,别说千万了,5万信息量,F5 刷新就能瘫痪。

gatsby 发表于 2020-10-3 22:16:58

golang 发表于 2020-10-3 21:23
。。。。。看到你说WordPress ,别说千万了,5万信息量,F5 刷新就能瘫痪。

如果wordpress用上缓存,再用上cdn缓存,这样应该就能缓解很大负担了吧?

gatsby 发表于 2020-10-3 22:20:48

buyabag 发表于 2020-10-3 17:30
这么大的量级?你先评估一下对数据库优化的水平,千万级可是另外一个门槛了 ...

那数据量大一般都用传统的cms吗?
页: [1] 2 3
查看完整版本: 做大型多语言采集站哪种方案好些?