|
发表于 2015-11-4 16:52:59
|
显示全部楼层
" f+ F& H( ~, p/ U$ X7 g' E( u* A7 G7 o
量不大的话,楼下 @阿百川 兄弟说的是正解* e( _ s9 h9 M; ^2 p" ~1 F# d% P$ R
否则你肯定会碰上RobotCheck,或者0或空字段
/ ~2 `" V; [, ]. |但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的$ {: `% q) g5 g8 d4 p. w
) T! ~' g. g |7 k1 @
我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵5 M7 ]4 M5 S( N: B( P8 j
6 \% L J/ r1 h@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量
/ N, } j$ K- g T$ _7 D/ T1 Q9 b# O$ \' t+ c3 ?
通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|