|
发表于 2015-11-4 16:52:59
|
显示全部楼层
feego 发表于 2015-11-4 01:544 O' u( |/ c+ d( g1 h, E
我的意思是采集亚马逊做垃圾站,朋友说会被k' e! ^8 Q+ \0 t* S- M" w
前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ...
+ }! g& o' U$ Y, o- | x+ Q" O量不大的话,楼下 @阿百川 兄弟说的是正解! p% s; m% N8 O( G! A
否则你肯定会碰上RobotCheck,或者0或空字段6 |" |$ ~, k, c2 |! E
但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的
2 }8 {5 D' L$ I% _! f7 f6 G$ t: S# }. L9 g K( h: T; I
我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵
* h1 s2 a+ q6 }# v: J4 D; @- x/ t2 Z6 j
@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量. q( R/ ]' u6 J
7 Y8 I. t+ W: E/ q通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|