AdvertCN - 广告中国

 找回密码
 立即注册

QQ登录

只需一步,快速开始

PropellerAds
 谷歌+Bing+TT+MSN官方代理 
⚡️按条S5代理⚡️静态⚡️独享⚡️5G需要代理IP?⚡️Proxysites.ai⚡️指纹浏览器,就用AdsPower
Mediabuy⚡️玩家开户首选【鲁班跨境通-自助充值转账】FB/GG/TT❤️官方免费开户Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理开户投流-7*24h❤️人工在线【官方】❤️搜索套利买量投流开户独立站⚡️开户投放
FB BM不限额,短id账单户E.PN 虚拟卡DuoPlus专注打造跨境电商云手机BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具ADPLEXITY + ADVERTCN7200W全球动态不重复住宅IP代理虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值Facebook 批量上广告尤里改 - FB 稳定投放免费黑五教程(持续更新、欢迎交流)
FB 三不限源头 - 自助下户充值转款各种主页、账单户、BM户(优势)⚡️个人户,bm户不限额,账单户9Proxy ⚡️ $0.04/IP, 无限带宽
IPCola原生住宅IP⚡️$2.1/条双ISPGoogle、Bing官方总代  联盟流量开户fb耐用号0.01一个fb账号官方合作商
FB资源,账单户,分享户,国内一手FB企业户BM户账单户源头PTM全球虚拟卡—进来交个朋友!PTM虚拟卡⚡️费率透明⚡️额度随心
广告位出租   
查看: 13668|回复: 11

分享下:豆瓣电影、百度网盘的采集思路和源码

[复制链接]

6

主题

1089

广告币

1118

积分

中级会员

Rank: 3Rank: 3

积分
1118

社区QQ达人

QQ
发表于 2016-10-16 22:34:21 | 显示全部楼层 |阅读模式
SimplyNode
本帖最后由 cdwyd 于 2016-10-16 22:38 编辑
( H8 v# N: o$ f& L6 v) C
- u  j4 i; L4 D) _6 Z) g可能这边的朋友不太需要这些东西,就当作是一点技术分享吧。
0 K" j+ K6 f0 F( @  g( S9 q8 f- m: T2 _0 [. k" Y
昨天发了一个帖子(http://www.advertcn.com/thread-34901-1-1.html),说是打算接一些爬虫抓取类的单子,从论坛(发了两个论坛)来了不少朋友加好友,有些朋友对数据感兴趣,不过采集的数据不太适合公开,所以把思路和部分源码分享下吧。欢迎大家私信或者QQ方式进行技术交流或者合作。
. |& S5 s4 r; i. B
& W' O7 ~2 Z" C8 q3 l## 豆瓣电影
+ A/ E  e8 S: c2 F8 P5 @0 A! Q) l& u" m: W' |# h

' F, D6 Q9 x" F因为豆瓣电影有api,所有采集豆瓣最方便的方式还是先获取id。豆瓣的电影、图书等id。获取到id后直接调用api抓取就行。豆瓣api有限制,可以使用拨号或者大量代理。& r9 |7 C/ L- d; e  k
# |5 x5 \+ v0 k; l$ V
## 百度网盘
  ]/ {) p. Z* B1 C  s4 l1 B5 Q+ b: [5 U% G( g5 T  o
百度网盘的主要思路是先获取用户uk,通过uk可以拿到分享列表,然后获取到分享数据。
- u0 @3 N: u7 y$ j4 S8 V+ s% N6 s
. f" i' N0 a! T### UK获取的方式:% f2 a( d0 Z0 q% V* _$ `
        1. 循环抓取用户的粉丝还有用的订阅
  Z  b* [( ~# L7 T" D& w! X        2. 从各个网盘搜索站点抓取! d+ y& C; B/ E% }$ V
        3. 利用大量关键词从bing搜索,google搜索的结果中提取。% D# G: Z/ s4 _0 b- {
        利用上面三种方法总共抓取了大概500W的有效分享用户
% k# q* k/ u. B6 Y  A1 ?* R/ W
$ O  L. U1 `/ B7 {2 Q  l### 失效链接检测2 M/ J2 Y- _% Q# o- k; v( l
        这个是很多网盘搜索站做的不太好的地方,很多资源都是失效。快速检测失效链接的方法是用head请求判断百度的返回信息就可以知道资源是否有效。用这种方式单台电脑每天能查询1000W左右的资源是否失效。' \2 U4 ?/ ^# T1 G

4 Q3 [' u9 [# N/ ?; G, v' ~### 百度的反爬虫策略
  V4 k" u/ b3 y3 F/ ]        除了限制IP抓取频率外,百度还对同一个UK的最大抓取有限制,超过限制后会随机返回数据。5 r. u; i6 I( A( |+ C. c
; t. |+ B' l0 C1 K8 L

. v" Z/ P' B% C" w( _, S: y豆瓣的源码附件中就有,百度的就不发了,主要原因是里面涉及一点百度反爬虫的东西,一旦公开估计很快就会被封。另外豆瓣的抓取源码是最初可用版本,重构后的那一份找不着了。。。写的比较随意,所以见笑见笑。$ J) ^8 t. K* V" Q/ p; Y$ a( V

3 M. `- j5 H6 Q( `6 {" n! |4 G4 z( B- j7 m; h" d4 h( N

) _  y1 M! M# o4 H( q* t按照惯例广告最后的应该是广告:有需要数据抓取,爬虫定制、工具开发方面的需求的朋友欢迎联系QQ:2870698831。关于数据,目前确实没打算出售主要还是考虑两个方面一个是影响另一个是公开后可能自己又要去找新的绕过方式,如果感兴趣的朋友比较多,价格合适的话我考虑下统一价格出售给需要的朋友。
0 ?0 Q8 N, `6 E1 ^5 l( s. S# k) O- T$ W4 L$ @& G8 s
还有一点关于接单价格,我给自己定了个原则目前低于200的不做,有些功能可能就几行十几行代码,还希望能理解。200算是一个小小的门槛吧,我不太希望技术变得太过廉价。
, L1 @2 \* }* X
9 i- l% m$ L/ E6 t

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
相关帖子

本帖被以下淘专辑推荐:

收亚马逊美国AFF老账号,收过款的那种
回复

使用道具 举报

103

主题

1823

广告币

2703

积分

高级会员

Rank: 4

积分
2703

社区QQ达人

发表于 2016-10-16 22:39:47 | 显示全部楼层
应为这里做采集数据的基本没人... 国外不像国内...
' ?- c9 b. c/ u: |/ I1 @- x& d+ |国内开发的几千上万的工具,即使泛解析等到了国外也就只能折腾一阵子就全部阵亡。& S' U. {! y  d1 d
即使打乱数据,混合数据,混合几个站的数据粘合,混合社交,视频,文章,产品的数据粘合成一篇文章,到了国外,也活不了多久。。
9 n7 u! r& H, N5 D# m& s. C(当然也会有成功的,不过都在偷偷的做。分享出来害死自己没有傻子会这么做)' ?8 Z) D* _: M+ F8 d) v, m

3 t# I; O7 t  A9 D都做的是原创内容..都是国外买文章...做的是长久的,不是国内这种短视的。
2 F* [$ }8 T+ t+ u或者做的就是付费流量....
回复 支持 反对

使用道具 举报

103

主题

1823

广告币

2703

积分

高级会员

Rank: 4

积分
2703

社区QQ达人

发表于 2016-10-16 22:48:24 | 显示全部楼层
我瞎说的。。勿理。。。

点评

明白人  详情 回复 发表于 2016-10-17 08:52

评分

参与人数 1广告币 +2 收起 理由
ads419 + 2 我瞎加分的。。勿理。。。

查看全部评分

回复 支持 反对

使用道具 举报

0

主题

2

广告币

110

积分

初级会员

Rank: 2

积分
110
发表于 2016-10-17 08:52:24 | 显示全部楼层
妖妖 发表于 2016-10-16 22:48
! W# Y6 G# y' ~9 p3 G. v- \- ^我瞎说的。。勿理。。。
2 B  j3 m8 d- @9 t3 ~
明白人
回复 支持 反对

使用道具 举报

18

主题

597

广告币

1709

积分

高级会员

Rank: 4

积分
1709

社区QQ达人

发表于 2016-10-17 09:51:19 | 显示全部楼层
百度的抓取源码我倒是有,谢谢楼主提醒,业余程序员一个。跪求反爬虫代码
出售二审GMC 直接开跑GG shopping 恐怖ROi 微信:nikiicool
回复 支持 反对

使用道具 举报

2

主题

356

广告币

463

积分

中级会员

Rank: 3Rank: 3

积分
463
发表于 2016-10-18 09:04:01 来自手机 | 显示全部楼层
反爬虫很简单,多ip就可以解决,推荐xx-net

点评

我的哥谢谢,刚搜了一下。好吊  详情 回复 发表于 2016-10-18 17:03
回复 支持 反对

使用道具 举报

18

主题

597

广告币

1709

积分

高级会员

Rank: 4

积分
1709

社区QQ达人

发表于 2016-10-18 17:03:57 | 显示全部楼层
wintop 发表于 2016-10-18 09:04! y( Z' F( T; C! s: `
反爬虫很简单,多ip就可以解决,推荐xx-net

! c. |# q4 m( B5 _我的哥谢谢,刚搜了一下。好吊
出售二审GMC 直接开跑GG shopping 恐怖ROi 微信:nikiicool
回复 支持 反对

使用道具 举报

1

主题

17

广告币

28

积分

初级会员

Rank: 2

积分
28

社区QQ达人

发表于 2016-10-21 15:24:54 | 显示全部楼层
又一位技术牛人
回复 支持 反对

使用道具 举报

15

主题

115

广告币

363

积分

初级会员

Rank: 2

积分
363
QQ
发表于 2016-10-22 08:23:18 | 显示全部楼层
现在用的比较多的是115吧,会员费还贼贵,你懂的
分享Affiliate纯干货 http://reapusd.com
回复 支持 反对

使用道具 举报

8

主题

429

广告币

483

积分

中级会员

Rank: 3Rank: 3

积分
483

社区QQ达人

发表于 2016-10-22 17:34:36 | 显示全部楼层
这个方根就是思路。有思路,什么都能。国外,DMCA
回复 支持 反对

使用道具 举报

11

主题

91

广告币

209

积分

初级会员

Rank: 2

积分
209
发表于 2016-10-24 16:50:31 | 显示全部楼层
源码厉害!!
回复 支持 反对

使用道具 举报

0

主题

3

广告币

13

积分

新手上路

Rank: 1

积分
13
发表于 2017-7-18 08:52:47 | 显示全部楼层
源码屌,下载过来看看,谢谢分享
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN

GMT+8, 2025-4-2 02:04 , Processed in 0.055294 second(s), 16 queries , Gzip On, MemCache On.

Copyright © 2001-2023, AdvertCN

Proudly Operating in Hong Kong.

快速回复 返回顶部 返回列表