阿百川
发表于 2013-11-23 17:27:00
小俞 发表于 2013-11-23 17:11 static/image/common/back.gif
三分钟50几篇文章,不换IP算什么水平
直接采EZ?哪里的网络?
我这里联通adsl还有部分无法打开EZ:L
小俞
发表于 2013-11-23 17:28:37
本帖最后由 小俞 于 2013-11-23 17:31 编辑
为什么我可以直接采,没提示什么IP
福州铁通网络
本次采内容成功843条,失败0条,开始时间:2013-11-23 17:20:21,结束时间:2013-11-23 17:29:10
这什么站啊 SITE有600多W数据
数据值钱不,要不要采光他
阿百川
发表于 2013-11-23 17:50:37
小俞 发表于 2013-11-23 17:28 static/image/common/back.gif
为什么我可以直接采,没提示什么IP
福州铁通网络
本次采内容成功843条,失败0条,开始时间:2013-11-23 17:20: ...
重要的内容源,能采就尽量采吧
小俞
发表于 2013-11-23 18:03:18
测试采了1W数据,开了6个任务,每个任务10个线程,10分钟后也挂了。。。。
阿百川
发表于 2013-11-23 19:30:15
小俞 发表于 2013-11-23 18:03 static/image/common/back.gif
测试采了1W数据,开了6个任务,每个任务10个线程,10分钟后也挂了。。。。
伤心,还以为铁通可以采呢
shanguiyao
发表于 2013-11-24 18:15:39
通过代理工具。先跑出来几百个代理。然后写个程序,随机代理去采集。我写了个简单的。基于c#的。不过只能跑单线程的。多线程还是要自己封包。
阿百川
发表于 2013-11-25 07:45:07
shanguiyao 发表于 2013-11-24 18:15 static/image/common/back.gif
通过代理工具。先跑出来几百个代理。然后写个程序,随机代理去采集。我写了个简单的。基于c#的。不过只能跑 ...
跑了几百个公共代理,用python开5线程,采了不到100都挂了
shanguiyao
发表于 2013-11-26 15:44:41
阿百川 发表于 2013-11-25 07:45 static/image/common/back.gif
跑了几百个公共代理,用python开5线程,采了不到100都挂了
代理也分透明代理,高匿代理的.主要看对方检查严格不严格了.检查严格的.透明代理基本上没啥用的.
阿百川
发表于 2013-11-26 17:26:03
shanguiyao 发表于 2013-11-26 15:44 static/image/common/back.gif
代理也分透明代理,高匿代理的.主要看对方检查严格不严格了.检查严格的.透明代理基本上没啥用的. ...
直接用ez做验证,pass的才使用
goog1e
发表于 2013-11-26 17:40:08
ipv6试试看.
小俞
发表于 2013-11-26 18:18:12
700分类,17W5000多分页,500多W数据,一天10W数据。要采50天
阿百川
发表于 2013-11-26 18:57:25
goog1e 发表于 2013-11-26 17:40 static/image/common/back.gif
ipv6试试看.
一下午没搞定ipv6
阿百川
发表于 2013-11-26 18:58:45
小俞 发表于 2013-11-26 18:18 static/image/common/back.gif
700分类,17W5000多分页,500多W数据,一天10W数据。要采50天
有站点地图,而且很容易过滤出文章url
小俞
发表于 2013-11-26 20:22:04
你差多少数据来着
阿百川
发表于 2013-11-26 20:54:43
小俞 发表于 2013-11-26 20:22 static/image/common/back.gif
你差多少数据来着
十几万,用gg缓存采的差不多了,本来想搞整站来着:L