buyabag 发表于 2020-10-3 22:44:09

没接触过千万级内容的站,不过我估计,首先程序肯定得是自写的了,起码魔改,要不然很多地方都不合你的需求。其次对你整个流程的架构都是个考验,从硬件到软件,从采集到节点。

另外啊,其实国外内容站很不好做,你要知道google是面向全球,资讯站早已极大丰富,基本上什么内容都很完整且优秀,完全饱和了。光靠采集翻译什么的,九成九是没排名的,跟国内内容荒漠的网络环境完全不是一回事。所以论坛内大佬都跑CPS那些赚分成。

gatsby 发表于 2020-10-3 23:22:21

buyabag 发表于 2020-10-3 22:44
没接触过千万级内容的站,不过我估计,首先程序肯定得是自写的了,起码魔改,要不然很多地方都不合你的需求 ...

确实是这样,对各方面都是个考验,就当时个学习的历程。人们收入下降消费欲望降低,cps同样也不好做。跟不上时代,处于逐渐被淘汰的边缘,做什么都不容易,难。

比特人 发表于 2020-10-4 15:25:49

wordpress不要说千万级了,连50w就很困难了,特别是用lnmp

gatsby 发表于 2020-10-4 21:24:24

比特人 发表于 2020-10-4 15:25
wordpress不要说千万级了,连50w就很困难了,特别是用lnmp

{:3_41:}正是准备使用lnmp搭建wordpress,这可如何是好

laoyebin 发表于 2020-10-4 22:31:08

gatsby 发表于 2020-10-4 21:24
正是准备使用lnmp搭建wordpress,这可如何是好

别想那么远,干了再说,说不定你几万数据时候就已经放弃这个站了:lol

gatsby 发表于 2020-10-4 22:56:07

laoyebin 发表于 2020-10-4 22:31
别想那么远,干了再说,说不定你几万数据时候就已经放弃这个站了

不错,干了再说:lol

我是c罗 发表于 2020-10-5 20:35:11

量大调用API根本不现实,不管是google还是其他引擎都是要钱的。
你可以下载个有道词典,然后用selenium 写个自动化在桌面自动翻译完成入库。可以各种语言和软件之间倒腾几次。

gatsby 发表于 2020-10-5 21:21:58

我是c罗 发表于 2020-10-5 20:35
量大调用API根本不现实,不管是google还是其他引擎都是要钱的。
你可以下载个有道词典,然后用selenium 写 ...

好的,谢谢,翻译的话反复考虑了很多方法都没法简单实现,只能来回多倒腾几次了。

大洲 发表于 2020-10-15 15:08:22

不翻译,硬干。硬盘网络成本低于翻译API。






正好有个任务,目前index了2300万文章,采集了1000万成果。

gatsby 发表于 2020-10-16 09:52:25

大洲 发表于 2020-10-15 15:08
不翻译,硬干。硬盘网络成本低于翻译API。




不愧为钱大大,用什么内容管理系统去承载这么大的数据量呢,另外简繁转换容易些,多语言就得用api了,现成的googletrans库也不靠谱。

dengwen168 发表于 2020-10-16 10:12:50

大洲 发表于 2020-10-15 15:08
不翻译,硬干。硬盘网络成本低于翻译API。




牛人,,
还自己写了界面,,

dengwen168 发表于 2020-10-16 10:15:29

我是c罗 发表于 2020-10-5 20:35
量大调用API根本不现实,不管是google还是其他引擎都是要钱的。
你可以下载个有道词典,然后用selenium 写 ...

请问selenium操作有道词典是如何弄的?


有道词典也支持一篇文章这样的全文翻译么?谢谢。

大洲 发表于 2020-10-16 16:38:14

gatsby 发表于 2020-10-16 09:52
不愧为钱大大,用什么内容管理系统去承载这么大的数据量呢,另外简繁转换容易些,多语言就得用api了,现 ...

CMS也是自写。MR9.AS 。单机独服单域名亿数据能扛得住。

hhqq 发表于 2020-10-18 12:08:02

大洲 发表于 2020-10-15 15:08
不翻译,硬干。硬盘网络成本低于翻译API。




请问采集的源站是中文的还是英文的呀?

gingko 发表于 2020-10-19 16:38:01

先干,边走边换服务器
页: 1 [2] 3
查看完整版本: 做大型多语言采集站哪种方案好些?