只需一步,快速开始
4
80
85
初级会员
matc 发表于 2015-9-3 08:48 正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...
使用道具 举报
47
403
706
中级会员
11
35
281
9
17
101
您需要 登录 才可以下载或查看,没有账号?立即注册
20
213
435
6
663
669
兔子君 发表于 2015-9-4 21:55 要说效率最高肯定是RE,但是规则不容易写对,非常好使 兼顾性能和写代码效率 lxml 应该比较好吧 ...
阿百川 发表于 2015-9-4 17:24 还是可以糊弄gg的,文章随机乱序+多站链轮,虽然死得快但流量上的也很快 https://www.google.com/search ...
54
6010
禁止访问
matc 发表于 2015-9-6 14:34 过了新站效应就死,域名钱都无法收回。
1
32
160
15
948
1445
高级会员
2
82
本版积分规则 发表回复 回帖后跳转到最后一页
使用QQ帐号登录论坛的用户
关于我们|联系我们|DMCA|广告服务|小黑屋|手机版|Archiver|Github|网站地图|AdvertCN
GMT+8, 2025-2-23 18:55 , Processed in 0.052676 second(s), 15 queries , Gzip On, MemCache On.
Copyright © 2001-2023, AdvertCN
Proudly Operating in Hong Kong.