|
本帖最后由 cdwyd 于 2016-10-16 22:38 编辑
K' y# O4 b3 {% j. z
4 T9 T0 ?% g6 F( q0 r可能这边的朋友不太需要这些东西,就当作是一点技术分享吧。
& S( w m1 u. b" m, L4 F
. ~( M8 F" w( e; Q昨天发了一个帖子(http://www.advertcn.com/thread-34901-1-1.html),说是打算接一些爬虫抓取类的单子,从论坛(发了两个论坛)来了不少朋友加好友,有些朋友对数据感兴趣,不过采集的数据不太适合公开,所以把思路和部分源码分享下吧。欢迎大家私信或者QQ方式进行技术交流或者合作。
4 m* k, \9 x- o `3 I% ~8 `1 s" m0 ?% l g, a0 f0 d* E* A
## 豆瓣电影7 e0 |1 o! r- U
8 _: q6 Y; l2 \( v
2 J) T% I" G& t+ I因为豆瓣电影有api,所有采集豆瓣最方便的方式还是先获取id。豆瓣的电影、图书等id。获取到id后直接调用api抓取就行。豆瓣api有限制,可以使用拨号或者大量代理。
) R- v: f5 P# y: Y& T) ]) K# v9 u% b' e; w0 v/ d
## 百度网盘
7 h: h) [0 \0 A$ N) G0 j' w# `- B4 ~# q. q0 g
百度网盘的主要思路是先获取用户uk,通过uk可以拿到分享列表,然后获取到分享数据。
8 p v6 b/ @0 T/ F
% f# E9 L/ f+ T### UK获取的方式:
+ U! |& Q+ d3 w B: C2 C 1. 循环抓取用户的粉丝还有用的订阅
: l% o( T% v' z1 X# U 2. 从各个网盘搜索站点抓取
% k: C6 @- y; a$ K1 \1 _ 3. 利用大量关键词从bing搜索,google搜索的结果中提取。
; v8 v# B% K) @2 w 利用上面三种方法总共抓取了大概500W的有效分享用户
& y- h" { T, \# Q
3 H G6 z8 h& ?- _: ]### 失效链接检测
; c6 Q0 D% C, w/ } 这个是很多网盘搜索站做的不太好的地方,很多资源都是失效。快速检测失效链接的方法是用head请求判断百度的返回信息就可以知道资源是否有效。用这种方式单台电脑每天能查询1000W左右的资源是否失效。( _$ @) {0 ^- k5 u( w. b" s5 g
. O1 r; S8 _$ \, M% o### 百度的反爬虫策略& A! j2 h, P5 ?% i
除了限制IP抓取频率外,百度还对同一个UK的最大抓取有限制,超过限制后会随机返回数据。
" b2 ?/ O! Z6 }2 S/ w
1 c# }' p/ a* C$ F! U5 \
9 O6 n# { b5 H豆瓣的源码附件中就有,百度的就不发了,主要原因是里面涉及一点百度反爬虫的东西,一旦公开估计很快就会被封。另外豆瓣的抓取源码是最初可用版本,重构后的那一份找不着了。。。写的比较随意,所以见笑见笑。
- X1 k; L6 H+ g- }- c- l% k0 @* j: O3 l' H! f
9 w2 O" ^- n3 s2 w6 Z/ a+ J- p+ T" W4 B( G5 y, E7 U# H
按照惯例广告最后的应该是广告:有需要数据抓取,爬虫定制、工具开发方面的需求的朋友欢迎联系QQ:2870698831。关于数据,目前确实没打算出售主要还是考虑两个方面一个是影响另一个是公开后可能自己又要去找新的绕过方式,如果感兴趣的朋友比较多,价格合适的话我考虑下统一价格出售给需要的朋友。
7 e) q/ @) R+ l+ F, v& ?! |
! \: r8 J% r: @/ b还有一点关于接单价格,我给自己定了个原则目前低于200的不做,有些功能可能就几行十几行代码,还希望能理解。200算是一个小小的门槛吧,我不太希望技术变得太过廉价。
. A) W4 z4 o& p: V5 T ^ x) J+ C T1 [2 q0 C2 ~
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|