AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

 谷歌+Bing+TT+MSN官方代理 
⚡️按条S5代理⚡️静态⚡️独享⚡️5G⚡️最干净<Wifi住宅+5G移动>IP代理指纹浏览器,就用AdsPower
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利广告开户独立站⚡️开户投放
DuoPlus专注打造跨境电商云手机E.PN 虚拟卡BINOM TRACKER 60% OFF!比Adplexity还好用的Spy工具
MediaGo+Taboola+Ob开户百度国际MediaGo⚡️让产品狂奔全球百度国际,高点击转化,快速放量百度国际MediaGo,独家原生流量
ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理虚拟信用卡+独立站收款全球虚拟卡, 支持U充值
Facebook 批量上广告尤里改 - FB 稳定投放免费黑五教程(持续更新、欢迎交流)FB 三不限源头 - 自助下户充值转款
各种主页、账单户、BM户(优势)⚡️个人户,bm户不限额,账单户一手BM分享户不限额9Proxy ⚡️ $0.04/IP, 无限带宽
IPCola原生住宅IP⚡️$2.1/条双ISPFB二三解0.1元一个虚拟卡|PTM星际卡FB专用虚拟卡
Google、Bing官方总代  联盟流量开户FB账号资源/稳定靠谱/运行5年啦FB开户代投/三不限/白名单广告位出租
查看: 76974|回复: 35

[讨论] 做大型多语言采集站哪种方案好些?

[复制链接]

27

主题

1343

广告币

1933

积分

高级会员

Rank: 4

积分
1933

社区QQ达人

发表于 2020-10-2 21:16:51 | 显示全部楼层 |阅读模式
采集量可能比较大,在千万以上,能想到两个解决方法,不知道哪更合适些,请指教。
7 z9 L/ g' t% d$ Z1,只采集源语言,其他语言版本用google api翻译并生成,网站本身不存储其它语言版本的内容,这样便于管理成本也小,缺点就是时刻依赖google api,似乎不可控。
( `* N! Y- H! [4 D' m2,采集源语言的时候并翻译成多种语言版本然后再发布,但这样成本就成倍数增长,数据库也占用太多,负载重。
" i4 M9 H) A6 V$ u4 r
7 A: |% I! z+ \0 K3 b  s' Q请问哪个解决方法要好些,一般都是怎么处理这样的问题的。另外不管1和2这样动态的网页可否交给cloudflare来缓存要好些?
* Z; B: U4 n  L9 i* P5 ?谢谢4 a6 O# q: _6 g
相关帖子
回复

使用道具 举报

19

主题

1098

广告币

2011

积分

高级会员

Rank: 4

积分
2011

社区QQ达人

QQ
发表于 2020-10-4 22:31:08 | 显示全部楼层
gatsby 发表于 2020-10-4 21:242 K3 s" j: `0 v7 U
正是准备使用lnmp搭建wordpress,这可如何是好

( L/ @7 T$ Y6 d" \别想那么远,干了再说,说不定你几万数据时候就已经放弃这个站了

点评

不错,干了再说  详情 回复 发表于 2020-10-4 22:56
努力奋斗
回复 支持 1 反对 0

使用道具 举报

0

主题

18

广告币

40

积分

初级会员

Rank: 2

积分
40

社区QQ达人

发表于 2020-10-2 21:58:11 来自手机 | 显示全部楼层
采集一个版本,之后用翻译插件

点评

用第三方插件的话,一般翻译版本的网站都是通过第三方插件处理翻译网站内容后中转到自己的网站,怕第三方停止服务或者流量大的话不知道是否会有影响。  详情 回复 发表于 2020-10-2 22:19
回复 支持 反对

使用道具 举报

27

主题

1343

广告币

1933

积分

高级会员

Rank: 4

积分
1933

社区QQ达人

 楼主| 发表于 2020-10-2 22:19:10 | 显示全部楼层
cxd44 发表于 2020-10-2 21:58% r$ Y" f$ c( z  S
采集一个版本,之后用翻译插件

- _  K4 l$ f0 ^* {: u用第三方插件的话,一般翻译版本的网站都是通过第三方插件处理翻译网站内容后中转到自己的网站,怕第三方停止服务或者流量大的话不知道是否会有影响。
回复 支持 反对

使用道具 举报

75

主题

810

广告币

1353

积分

高级会员

Rank: 4

积分
1353

社区QQ达人

发表于 2020-10-2 22:44:17 | 显示全部楼层
现在硬盘那么便宜。7 o' \% q* B* M+ `9 |
说说我的方法吧,买个德国VPS,然后采集英语,入库。% [  p2 `/ v3 Z+ u
再翻译成德语,法语,西班牙语,葡萄牙语等等,放入不同字段。4 @! Y, w6 X& @1 u" H3 c" x% s
然后搞个火车头免登陆接口发布。/ z( _) }+ ?2 I' C
打完,收工。

点评

大神用的什么翻译api?是免费的吗  详情 回复 发表于 2020-10-3 07:26
抱歉,资质愚钝没太明白。 采集入库后怎么翻译? “放入不同字段。然后搞个火车头免登陆接口发布”也没明白 另外火车头采集千万数据的话采集排重是不是比较困难,采集也可能比较慢。 我是想学下scrapy分布式抓取  详情 回复 发表于 2020-10-2 23:20
回复 支持 反对

使用道具 举报

27

主题

1343

广告币

1933

积分

高级会员

Rank: 4

积分
1933

社区QQ达人

 楼主| 发表于 2020-10-2 23:20:06 | 显示全部楼层
东方人 发表于 2020-10-2 22:44) o4 N" P+ r! t% _
现在硬盘那么便宜。3 ~% S" Z1 T$ C/ T
说说我的方法吧,买个德国VPS,然后采集英语,入库。. X1 H  m9 @7 e" Q' ?2 S, p
再翻译成德语,法语,西班牙语, ...
# o6 C6 v9 ~" z3 _' t7 C5 p
抱歉,资质愚钝没太明白。# c9 l5 y! v. T& t
采集入库后怎么翻译?  “放入不同字段。然后搞个火车头免登陆接口发布”也没明白
8 ~9 ]2 f6 s8 y+ n4 I/ A# ~( }另外火车头采集千万数据的话采集排重是不是比较困难,采集也可能比较慢。( P. t" q0 d# g0 L/ }+ W
我是想学下scrapy分布式抓取用布隆过滤器。
回复 支持 反对

使用道具 举报

2

主题

476

广告币

556

积分

中级会员

Rank: 3Rank: 3

积分
556
发表于 2020-10-2 23:51:20 | 显示全部楼层
我的经验:全部翻译好入库,硬盘的成本是最低的,不要丢了西瓜捡了芝麻,cf可以用,但是不要想着靠cf来节省硬盘,千万级内容,你系统的负载能力要好,否则并发上来就跪了。根本等不到用cf。爬虫就爬死了。

点评

非常感谢,wordpress可行不?  详情 回复 发表于 2020-10-3 00:34
回复 支持 反对

使用道具 举报

27

主题

1343

广告币

1933

积分

高级会员

Rank: 4

积分
1933

社区QQ达人

 楼主| 发表于 2020-10-3 00:34:04 | 显示全部楼层
yrj 发表于 2020-10-2 23:51
$ I0 M0 m( \2 P# ^我的经验:全部翻译好入库,硬盘的成本是最低的,不要丢了西瓜捡了芝麻,cf可以用,但是不要想着靠cf来节省 ...

. }* R9 N7 M# H' [3 s非常感谢,wordpress可行不?

点评

。。。。。看到你说WordPress ,别说千万了,5万信息量,F5 刷新就能瘫痪。  详情 回复 发表于 2020-10-3 21:23
yrj
wordpress 我用的不多,堆缓存也许可以。  详情 回复 发表于 2020-10-3 03:23
回复 支持 反对

使用道具 举报

2

主题

476

广告币

556

积分

中级会员

Rank: 3Rank: 3

积分
556
发表于 2020-10-3 03:23:41 | 显示全部楼层
gatsby 发表于 2020-10-3 00:34
; V" S, m' Z4 H& ]) j非常感谢,wordpress可行不?

% Z& m. [$ I0 E! n* G0 |wordpress 我用的不多,堆缓存也许可以。
回复 支持 反对

使用道具 举报

49

主题

943

广告币

1394

积分

高级会员

Rank: 4

积分
1394
发表于 2020-10-3 07:26:46 | 显示全部楼层
东方人 发表于 2020-10-2 22:44
" p% n, z9 B; f6 ^: Z) b! o现在硬盘那么便宜。! f6 K1 x# A% J: x& }! _
说说我的方法吧,买个德国VPS,然后采集英语,入库。
! V9 u# w: K# J# y- X再翻译成德语,法语,西班牙语, ...
& k4 k) X8 F3 N* r4 _0 @
大神用的什么翻译api?是免费的吗
回复 支持 反对

使用道具 举报

16

主题

1100

广告币

2360

积分

高级会员

Rank: 4

积分
2360
发表于 2020-10-3 09:04:59 | 显示全部楼层
明显第2种

点评

好的,就使用本地存储数据靠谱些。  详情 回复 发表于 2020-10-3 11:46
回复 支持 反对

使用道具 举报

27

主题

1343

广告币

1933

积分

高级会员

Rank: 4

积分
1933

社区QQ达人

 楼主| 发表于 2020-10-3 11:46:12 | 显示全部楼层
54clz 发表于 2020-10-3 09:04
0 N& q! C( W$ ]" s明显第2种

0 T& f) x4 f6 [, q' B好的,就使用本地存储数据靠谱些。
回复 支持 反对

使用道具 举报

27

主题

322

广告币

471

积分

中级会员

Rank: 3Rank: 3

积分
471
发表于 2020-10-3 17:30:02 | 显示全部楼层
这么大的量级?你先评估一下对数据库优化的水平,千万级可是另外一个门槛了

点评

那数据量大一般都用传统的cms吗?  详情 回复 发表于 2020-10-3 22:20
回复 支持 反对

使用道具 举报

5

主题

33

广告币

85

积分

初级会员

Rank: 2

积分
85
发表于 2020-10-3 21:23:52 | 显示全部楼层
gatsby 发表于 2020-10-3 00:342 h6 q; [9 E+ d: T+ M- S3 |( s* M
非常感谢,wordpress可行不?
# T. Y6 e& N" }1 w" [) \
。。。。。看到你说WordPress ,别说千万了,5万信息量,F5 刷新就能瘫痪。

点评

如果wordpress用上缓存,再用上cdn缓存,这样应该就能缓解很大负担了吧?  详情 回复 发表于 2020-10-3 22:16
低调做人,高调做事
回复 支持 反对

使用道具 举报

27

主题

1343

广告币

1933

积分

高级会员

Rank: 4

积分
1933

社区QQ达人

 楼主| 发表于 2020-10-3 22:16:58 | 显示全部楼层
golang 发表于 2020-10-3 21:23( o' }- k* h7 i, _. G3 o1 X) _" e& ]
。。。。。看到你说WordPress ,别说千万了,5万信息量,F5 刷新就能瘫痪。

. L' S" d, `. w1 m" R# \) d; w( {* R; d如果wordpress用上缓存,再用上cdn缓存,这样应该就能缓解很大负担了吧?
回复 支持 反对

使用道具 举报

27

主题

1343

广告币

1933

积分

高级会员

Rank: 4

积分
1933

社区QQ达人

 楼主| 发表于 2020-10-3 22:20:48 | 显示全部楼层
buyabag 发表于 2020-10-3 17:30
& o  t" t9 i# L1 h" H这么大的量级?你先评估一下对数据库优化的水平,千万级可是另外一个门槛了 ...

4 u8 p9 p- }/ q8 r6 ]1 ^, D那数据量大一般都用传统的cms吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2024-11-5 16:01 , Processed in 0.055267 second(s), 15 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表