buyabag
发表于 2020-10-3 22:44:09
没接触过千万级内容的站,不过我估计,首先程序肯定得是自写的了,起码魔改,要不然很多地方都不合你的需求。其次对你整个流程的架构都是个考验,从硬件到软件,从采集到节点。
另外啊,其实国外内容站很不好做,你要知道google是面向全球,资讯站早已极大丰富,基本上什么内容都很完整且优秀,完全饱和了。光靠采集翻译什么的,九成九是没排名的,跟国内内容荒漠的网络环境完全不是一回事。所以论坛内大佬都跑CPS那些赚分成。
gatsby
发表于 2020-10-3 23:22:21
buyabag 发表于 2020-10-3 22:44
没接触过千万级内容的站,不过我估计,首先程序肯定得是自写的了,起码魔改,要不然很多地方都不合你的需求 ...
确实是这样,对各方面都是个考验,就当时个学习的历程。人们收入下降消费欲望降低,cps同样也不好做。跟不上时代,处于逐渐被淘汰的边缘,做什么都不容易,难。
比特人
发表于 2020-10-4 15:25:49
wordpress不要说千万级了,连50w就很困难了,特别是用lnmp
gatsby
发表于 2020-10-4 21:24:24
比特人 发表于 2020-10-4 15:25
wordpress不要说千万级了,连50w就很困难了,特别是用lnmp
{:3_41:}正是准备使用lnmp搭建wordpress,这可如何是好
laoyebin
发表于 2020-10-4 22:31:08
gatsby 发表于 2020-10-4 21:24
正是准备使用lnmp搭建wordpress,这可如何是好
别想那么远,干了再说,说不定你几万数据时候就已经放弃这个站了:lol
gatsby
发表于 2020-10-4 22:56:07
laoyebin 发表于 2020-10-4 22:31
别想那么远,干了再说,说不定你几万数据时候就已经放弃这个站了
不错,干了再说:lol
我是c罗
发表于 2020-10-5 20:35:11
量大调用API根本不现实,不管是google还是其他引擎都是要钱的。
你可以下载个有道词典,然后用selenium 写个自动化在桌面自动翻译完成入库。可以各种语言和软件之间倒腾几次。
gatsby
发表于 2020-10-5 21:21:58
我是c罗 发表于 2020-10-5 20:35
量大调用API根本不现实,不管是google还是其他引擎都是要钱的。
你可以下载个有道词典,然后用selenium 写 ...
好的,谢谢,翻译的话反复考虑了很多方法都没法简单实现,只能来回多倒腾几次了。
大洲
发表于 2020-10-15 15:08:22
不翻译,硬干。硬盘网络成本低于翻译API。
正好有个任务,目前index了2300万文章,采集了1000万成果。
gatsby
发表于 2020-10-16 09:52:25
大洲 发表于 2020-10-15 15:08
不翻译,硬干。硬盘网络成本低于翻译API。
不愧为钱大大,用什么内容管理系统去承载这么大的数据量呢,另外简繁转换容易些,多语言就得用api了,现成的googletrans库也不靠谱。
dengwen168
发表于 2020-10-16 10:12:50
大洲 发表于 2020-10-15 15:08
不翻译,硬干。硬盘网络成本低于翻译API。
牛人,,
还自己写了界面,,
dengwen168
发表于 2020-10-16 10:15:29
我是c罗 发表于 2020-10-5 20:35
量大调用API根本不现实,不管是google还是其他引擎都是要钱的。
你可以下载个有道词典,然后用selenium 写 ...
请问selenium操作有道词典是如何弄的?
有道词典也支持一篇文章这样的全文翻译么?谢谢。
大洲
发表于 2020-10-16 16:38:14
gatsby 发表于 2020-10-16 09:52
不愧为钱大大,用什么内容管理系统去承载这么大的数据量呢,另外简繁转换容易些,多语言就得用api了,现 ...
CMS也是自写。MR9.AS 。单机独服单域名亿数据能扛得住。
hhqq
发表于 2020-10-18 12:08:02
大洲 发表于 2020-10-15 15:08
不翻译,硬干。硬盘网络成本低于翻译API。
请问采集的源站是中文的还是英文的呀?
gingko
发表于 2020-10-19 16:38:01
先干,边走边换服务器