如何提取google搜索结果里,目标网页的URL?
用google搜索,想提取目标网页的URL(10w个),有什么工具吗?具体需求 没明白,是搜索结果搜集(最多1000条) 还是什么 lhelhm 发表于 2013-6-4 13:10 static/image/common/back.gif
具体需求 没明白,是搜索结果搜集(最多1000条) 还是什么
抱歉,可能没说清楚。
要搜集结果页那些网站的URL
比如搜索“中国”
要搜集的内容就是:
http://zh.wikipedia.org/zh/中国
http://baike.baidu.com/view/61891.htm
http://www.baike.com/wiki/中国
http://china.huanqiu.com/
http://world.people.com.cn/GB/57506/190965/
……
……
……
Scrape Sonic
GetFromGoogle
这些小软件都可以,下不到你也可以搜索谷歌搜刮工具,火狐有个插件好久不用也忘了 我以前曾经编过一个程序,从Google的搜索结果里提取网址。
因为GG搜索结果有着一定的规律,这些URL在包含在GG的连接里,分析提取出来并不难。如果要大量提取,难点在于自动搜索时,还没有搜索几次Google就让输入验证码,这时就无法进行下一次搜索了。 lhelhm 发表于 2013-6-4 13:26 static/image/common/back.gif
Scrape Sonic
GetFromGoogle
这些小软件都可以,下不到你也可以搜索谷歌搜刮工具,火狐有个插件好久不用也忘 ...
多谢!
yoo 发表于 2013-6-4 13:30 static/image/common/back.gif
我以前曾经编过一个程序,从Google的搜索结果里提取网址。
因为GG搜索结果有着一定的规律,这些URL在包含在 ...
嗯
数据有10万条,估计翻几页就要输入验证码了 不知道可不可以,去试试google的搜索API 现在不好使 搜索几页后 就会让你输验证码 google不行,换其他搜索引擎吧。
以前也有过类似的采集,开始采集的bing,后来采集的有道搜索,基本上不会挂。
现在具体情况不清楚了。 billy 发表于 2013-6-4 13:52 static/image/common/back.gif
google不行,换其他搜索引擎吧。
以前也有过类似的采集,开始采集的bing,后来采集的有道搜索,基本上不会 ...
其它搜索引擎都没有结果
某网站10万个会员的邮箱
看来希望渺茫……:lol whois360 发表于 2013-6-4 14:00 static/image/common/back.gif
其它搜索引擎都没有结果
某网站10万个会员的邮箱
楼主搜这邮箱做什么 sdwzzx 发表于 2013-6-4 14:19 static/image/common/back.gif
楼主搜这邮箱做什么
有10万个邮箱 做什么都好 whois360 发表于 2013-6-4 14:23 static/image/common/back.gif
有10万个邮箱 做什么都好
群发搜来的邮箱不会给认为垃圾邮件,封IP吗? qiqinjun 发表于 2013-6-4 13:37 static/image/common/back.gif
不知道可不可以,去试试google的搜索API
API返回的数量非常有限
页:
[1]
2