cdwyd 发表于 2016-10-16 22:34:21

分享下:豆瓣电影、百度网盘的采集思路和源码

本帖最后由 cdwyd 于 2016-10-16 22:38 编辑

可能这边的朋友不太需要这些东西,就当作是一点技术分享吧。

昨天发了一个帖子(http://www.advertcn.com/thread-34901-1-1.html),说是打算接一些爬虫抓取类的单子,从论坛(发了两个论坛)来了不少朋友加好友,有些朋友对数据感兴趣,不过采集的数据不太适合公开,所以把思路和部分源码分享下吧。欢迎大家私信或者QQ方式进行技术交流或者合作。

## 豆瓣电影


因为豆瓣电影有api,所有采集豆瓣最方便的方式还是先获取id。豆瓣的电影、图书等id。获取到id后直接调用api抓取就行。豆瓣api有限制,可以使用拨号或者大量代理。

## 百度网盘

百度网盘的主要思路是先获取用户uk,通过uk可以拿到分享列表,然后获取到分享数据。

### UK获取的方式:
      1. 循环抓取用户的粉丝还有用的订阅
      2. 从各个网盘搜索站点抓取
      3. 利用大量关键词从bing搜索,google搜索的结果中提取。
      利用上面三种方法总共抓取了大概500W的有效分享用户

### 失效链接检测
      这个是很多网盘搜索站做的不太好的地方,很多资源都是失效。快速检测失效链接的方法是用head请求判断百度的返回信息就可以知道资源是否有效。用这种方式单台电脑每天能查询1000W左右的资源是否失效。

### 百度的反爬虫策略
      除了限制IP抓取频率外,百度还对同一个UK的最大抓取有限制,超过限制后会随机返回数据。


豆瓣的源码附件中就有,百度的就不发了,主要原因是里面涉及一点百度反爬虫的东西,一旦公开估计很快就会被封。另外豆瓣的抓取源码是最初可用版本,重构后的那一份找不着了。。。写的比较随意,所以见笑见笑。



按照惯例广告最后的应该是广告:有需要数据抓取,爬虫定制、工具开发方面的需求的朋友欢迎联系QQ:2870698831。关于数据,目前确实没打算出售主要还是考虑两个方面一个是影响另一个是公开后可能自己又要去找新的绕过方式,如果感兴趣的朋友比较多,价格合适的话我考虑下统一价格出售给需要的朋友。

还有一点关于接单价格,我给自己定了个原则目前低于200的不做,有些功能可能就几行十几行代码,还希望能理解。200算是一个小小的门槛吧,我不太希望技术变得太过廉价。

妖妖 发表于 2016-10-16 22:39:47

应为这里做采集数据的基本没人... 国外不像国内...
国内开发的几千上万的工具,即使泛解析等到了国外也就只能折腾一阵子就全部阵亡。
即使打乱数据,混合数据,混合几个站的数据粘合,混合社交,视频,文章,产品的数据粘合成一篇文章,到了国外,也活不了多久。。
(当然也会有成功的,不过都在偷偷的做。分享出来害死自己没有傻子会这么做)

都做的是原创内容..都是国外买文章...做的是长久的,不是国内这种短视的。
或者做的就是付费流量....

妖妖 发表于 2016-10-16 22:48:24

我瞎说的。。勿理。。。:loveliness:

hengz 发表于 2016-10-17 08:52:24

妖妖 发表于 2016-10-16 22:48
我瞎说的。。勿理。。。

明白人 :lol

大B哥 发表于 2016-10-17 09:51:19

百度的抓取源码我倒是有,谢谢楼主提醒,业余程序员一个。跪求反爬虫代码

wintop 发表于 2016-10-18 09:04:01

反爬虫很简单,多ip就可以解决,推荐xx-net

大B哥 发表于 2016-10-18 17:03:57

wintop 发表于 2016-10-18 09:04
反爬虫很简单,多ip就可以解决,推荐xx-net

我的哥谢谢,刚搜了一下。好吊

wonday 发表于 2016-10-21 15:24:54

又一位技术牛人

reapusd 发表于 2016-10-22 08:23:18

现在用的比较多的是115吧,会员费还贼贵,你懂的:lol:lol:lol

sofeng 发表于 2016-10-22 17:34:36

这个方根就是思路。有思路,什么都能。国外,DMCA:'(:'(:'(

displaysonline 发表于 2016-10-24 16:50:31

:lol源码厉害!!

xz4062006 发表于 2017-7-18 08:52:47

源码屌,下载过来看看,谢谢分享
页: [1]
查看完整版本: 分享下:豆瓣电影、百度网盘的采集思路和源码