whois360 发表于 2013-6-4 13:06:40

如何提取google搜索结果里,目标网页的URL?

用google搜索,想提取目标网页的URL(10w个),有什么工具吗?

lhelhm 发表于 2013-6-4 13:10:11

具体需求 没明白,是搜索结果搜集(最多1000条) 还是什么

whois360 发表于 2013-6-4 13:21:32

lhelhm 发表于 2013-6-4 13:10 static/image/common/back.gif
具体需求 没明白,是搜索结果搜集(最多1000条) 还是什么

抱歉,可能没说清楚。

要搜集结果页那些网站的URL

比如搜索“中国”


要搜集的内容就是:
http://zh.wikipedia.org/zh/中国
http://baike.baidu.com/view/61891.htm
http://www.baike.com/wiki/中国
http://china.huanqiu.com/
http://world.people.com.cn/GB/57506/190965/
……
……
……

lhelhm 发表于 2013-6-4 13:26:54

Scrape Sonic
GetFromGoogle
这些小软件都可以,下不到你也可以搜索谷歌搜刮工具,火狐有个插件好久不用也忘了

yoo 发表于 2013-6-4 13:30:10

我以前曾经编过一个程序,从Google的搜索结果里提取网址。
因为GG搜索结果有着一定的规律,这些URL在包含在GG的连接里,分析提取出来并不难。如果要大量提取,难点在于自动搜索时,还没有搜索几次Google就让输入验证码,这时就无法进行下一次搜索了。

whois360 发表于 2013-6-4 13:32:54

lhelhm 发表于 2013-6-4 13:26 static/image/common/back.gif
Scrape Sonic
GetFromGoogle
这些小软件都可以,下不到你也可以搜索谷歌搜刮工具,火狐有个插件好久不用也忘 ...

多谢!                  

whois360 发表于 2013-6-4 13:33:27

yoo 发表于 2013-6-4 13:30 static/image/common/back.gif
我以前曾经编过一个程序,从Google的搜索结果里提取网址。
因为GG搜索结果有着一定的规律,这些URL在包含在 ...



数据有10万条,估计翻几页就要输入验证码了

qiqinjun 发表于 2013-6-4 13:37:54

不知道可不可以,去试试google的搜索API

生鱼片 发表于 2013-6-4 13:39:40

现在不好使 搜索几页后 就会让你输验证码

billy 发表于 2013-6-4 13:52:33

google不行,换其他搜索引擎吧。
以前也有过类似的采集,开始采集的bing,后来采集的有道搜索,基本上不会挂。
现在具体情况不清楚了。

whois360 发表于 2013-6-4 14:00:04

billy 发表于 2013-6-4 13:52 static/image/common/back.gif
google不行,换其他搜索引擎吧。
以前也有过类似的采集,开始采集的bing,后来采集的有道搜索,基本上不会 ...

其它搜索引擎都没有结果

某网站10万个会员的邮箱
看来希望渺茫……:lol

sdwzzx 发表于 2013-6-4 14:19:04

whois360 发表于 2013-6-4 14:00 static/image/common/back.gif
其它搜索引擎都没有结果

某网站10万个会员的邮箱


楼主搜这邮箱做什么

whois360 发表于 2013-6-4 14:23:03

sdwzzx 发表于 2013-6-4 14:19 static/image/common/back.gif
楼主搜这邮箱做什么

有10万个邮箱 做什么都好

hudba 发表于 2013-6-4 16:05:22

whois360 发表于 2013-6-4 14:23 static/image/common/back.gif
有10万个邮箱 做什么都好

群发搜来的邮箱不会给认为垃圾邮件,封IP吗?

alitraffic 发表于 2013-6-4 16:22:02

qiqinjun 发表于 2013-6-4 13:37 static/image/common/back.gif
不知道可不可以,去试试google的搜索API

API返回的数量非常有限
页: [1] 2
查看完整版本: 如何提取google搜索结果里,目标网页的URL?