求采集ezinearticles的高招,封ip太狠了
准备了十几个ip,采了不到300条就封完了设置了采集间隔,短了没用,长了效率太低
求高人指点
您或您的网络上有人正在运行一个机器人爬行我们的网站。
请与您的网络管理员联系,如果你相信这是的情况下。
我们只需要你输入验证码,所以我们可以确认,你是一个人,而不是一个机器人。 结合decaptcha不行吗? alitraffic 发表于 2013-11-22 17:22 static/image/common/back.gif
结合decaptcha不行吗?
小试了下,烧的太厉害了 试试直接从搜索引擎采集看看封不封。用site:ezinearticles.com,google一般采集的多会要求验证,采集bing可能更好点。或者试试google缓存页。 根据目测,如果有一些美国ip,然后打开每一篇文章都切换一下ip,间隔稍微长一些,那么应该没啥问题。 billy 发表于 2013-11-22 18:24 static/image/common/back.gif
试试直接从搜索引擎采集看看封不封。用site:ezinearticles.com,google一般采集的多会要求验证,采集bing可 ...
bing的缓存页url搞不定,gg的缓存还可以,勉强能有龟速 firearmer 发表于 2013-11-22 18:59 static/image/common/back.gif
根据目测,如果有一些美国ip,然后打开每一篇文章都切换一下ip,间隔稍微长一些,那么应该没啥问题。 ...
根据实测,间隔短无效,间隔长效率太低 以前挂多个代理IP 间隔还可以采 现在不行了
AS似乎是API调用的 具体不清楚 Atrus 发表于 2013-11-22 19:37 static/image/common/back.gif
以前挂多个代理IP 间隔还可以采 现在不行了
AS似乎是API调用的 具体不清楚
以前一天采几十万很容易,后悔当初没扒光:'( 你用多少个代理ip啊, 现在哪个卖代理的不是几千上万的啊.
我还真没遇过采集不到的.
ofneyyooa 发表于 2013-11-22 23:54 static/image/common/back.gif
你用多少个代理ip啊, 现在哪个卖代理的不是几千上万的啊.
我还真没遇过采集不到的.
...
你试试就知道 有可能1个代理IP 只能采一篇。。。 ofneyyooa 发表于 2013-11-22 23:54 static/image/common/back.gif
你用多少个代理ip啊, 现在哪个卖代理的不是几千上万的啊.
我还真没遇过采集不到的.
...
开始也是这么想的,实际操作。。。 Atrus 发表于 2013-11-23 00:45 static/image/common/back.gif
你试试就知道 有可能1个代理IP 只能采一篇。。。
目前采集gg缓存,效率勉强可以,一小时一千多条:L 本帖最后由 小俞 于 2013-11-23 17:27 编辑
为什么我可以随便采了。。。