|
发表于 2015-11-4 16:52:59
|
显示全部楼层
) ~$ M; R$ T( M; ^1 \: @量不大的话,楼下 @阿百川 兄弟说的是正解# a, G5 a9 Y5 v3 L6 D1 }
否则你肯定会碰上RobotCheck,或者0或空字段/ i/ f2 Y8 `' p' c1 r
但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的
, d2 f; g4 g; p7 }$ O7 t, C8 l- l( i' C( q3 d
我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵$ Q- O2 {0 q6 e- i+ T. d
! m; r3 j8 w9 \- M8 i@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量( R- {, u7 j+ B, z9 @8 U) L
8 W8 ~; L( s" M' r' A通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈 |
|