微笑君 发表于 2013-11-26 21:02:39

可以修改 User Agent 为google的爬虫,它就不敢轻易的封你了

小俞 发表于 2013-11-26 21:14:39

阿百川 发表于 2013-11-26 20:54 static/image/common/back.gif
十几万,用gg缓存采的差不多了,本来想搞整站来着

刚找到方法采,都差不多那算了

阿百川 发表于 2013-11-27 07:33:40

微笑君 发表于 2013-11-26 21:02 static/image/common/back.gif
可以修改 User Agent 为google的爬虫,它就不敢轻易的封你了

各种爬虫、手机端的ua都试过,没用

阿百川 发表于 2013-11-27 07:34:47

小俞 发表于 2013-11-26 21:14 static/image/common/back.gif
刚找到方法采,都差不多那算了

求方法,看看可不可以提高效率去扒整站

SIR 发表于 2013-11-27 07:41:24

测试时间间隔撒,采集这个本来就是长期打算的,楼主太急了。不要一下子吃成胖子哈

阿百川 发表于 2013-11-27 17:32:43

SIR 发表于 2013-11-27 07:41 static/image/common/back.gif
测试时间间隔撒,采集这个本来就是长期打算的,楼主太急了。不要一下子吃成胖子哈 ...

恩,看现在这批数据的处理结果如何,如果不错就慢慢采

jk1s 发表于 2013-12-8 17:31:42

我曾使用的办法
1、googleiP 代理,会找到一些提供免费代理ip网站
2、分别打开每个网站,复制ip和端口号到excell
3、调整excell,最终得到一个表只有一列,形如199.199.199.199:199,过程繁琐,不过熟练了也快
4、所有的ip和端口号用逗号隔开,保存到一个文本文件
5、php做一个程序,读取这个文本文件,按逗号保存到一个数组中,每次随机取出一个
6、php写一段采集代码,用取出的这个代理ip,用完以后从数组中删除这个ip,把整个数组再用逗号隔开,保存到同名文本文件
7、隔几天到那几个网站,复制新的代理ip
8、重复以上步骤

阿百川 发表于 2013-12-9 07:31:33

jk1s 发表于 2013-12-8 17:31 static/image/common/back.gif
我曾使用的办法
1、googleiP 代理,会找到一些提供免费代理ip网站
2、分别打开每个网站,复制ip和端口号 ...

也是采集的ez?多久之前?

尝试过使用代理,效率很差
页: 1 2 [3]
查看完整版本: 求采集ezinearticles的高招,封ip太狠了