阿百川 发表于 2013-11-23 17:27:00

小俞 发表于 2013-11-23 17:11 static/image/common/back.gif
三分钟50几篇文章,不换IP算什么水平

直接采EZ?哪里的网络?

我这里联通adsl还有部分无法打开EZ:L

小俞 发表于 2013-11-23 17:28:37

本帖最后由 小俞 于 2013-11-23 17:31 编辑

为什么我可以直接采,没提示什么IP
福州铁通网络
本次采内容成功843条,失败0条,开始时间:2013-11-23 17:20:21,结束时间:2013-11-23 17:29:10

这什么站啊 SITE有600多W数据
数据值钱不,要不要采光他

阿百川 发表于 2013-11-23 17:50:37

小俞 发表于 2013-11-23 17:28 static/image/common/back.gif
为什么我可以直接采,没提示什么IP
福州铁通网络
本次采内容成功843条,失败0条,开始时间:2013-11-23 17:20: ...

重要的内容源,能采就尽量采吧

小俞 发表于 2013-11-23 18:03:18

测试采了1W数据,开了6个任务,每个任务10个线程,10分钟后也挂了。。。。

阿百川 发表于 2013-11-23 19:30:15

小俞 发表于 2013-11-23 18:03 static/image/common/back.gif
测试采了1W数据,开了6个任务,每个任务10个线程,10分钟后也挂了。。。。

伤心,还以为铁通可以采呢

shanguiyao 发表于 2013-11-24 18:15:39

通过代理工具。先跑出来几百个代理。然后写个程序,随机代理去采集。我写了个简单的。基于c#的。不过只能跑单线程的。多线程还是要自己封包。

阿百川 发表于 2013-11-25 07:45:07

shanguiyao 发表于 2013-11-24 18:15 static/image/common/back.gif
通过代理工具。先跑出来几百个代理。然后写个程序,随机代理去采集。我写了个简单的。基于c#的。不过只能跑 ...

跑了几百个公共代理,用python开5线程,采了不到100都挂了

shanguiyao 发表于 2013-11-26 15:44:41

阿百川 发表于 2013-11-25 07:45 static/image/common/back.gif
跑了几百个公共代理,用python开5线程,采了不到100都挂了

代理也分透明代理,高匿代理的.主要看对方检查严格不严格了.检查严格的.透明代理基本上没啥用的.

阿百川 发表于 2013-11-26 17:26:03

shanguiyao 发表于 2013-11-26 15:44 static/image/common/back.gif
代理也分透明代理,高匿代理的.主要看对方检查严格不严格了.检查严格的.透明代理基本上没啥用的. ...

直接用ez做验证,pass的才使用

goog1e 发表于 2013-11-26 17:40:08

ipv6试试看.

小俞 发表于 2013-11-26 18:18:12

700分类,17W5000多分页,500多W数据,一天10W数据。要采50天

阿百川 发表于 2013-11-26 18:57:25

goog1e 发表于 2013-11-26 17:40 static/image/common/back.gif
ipv6试试看.

一下午没搞定ipv6

阿百川 发表于 2013-11-26 18:58:45

小俞 发表于 2013-11-26 18:18 static/image/common/back.gif
700分类,17W5000多分页,500多W数据,一天10W数据。要采50天

有站点地图,而且很容易过滤出文章url

小俞 发表于 2013-11-26 20:22:04

你差多少数据来着

阿百川 发表于 2013-11-26 20:54:43

小俞 发表于 2013-11-26 20:22 static/image/common/back.gif
你差多少数据来着

十几万,用gg缓存采的差不多了,本来想搞整站来着:L
页: 1 [2] 3
查看完整版本: 求采集ezinearticles的高招,封ip太狠了