白龙君 发表于 2014-8-17 00:54:28

在知道域名的情况下,有没有可能采集这个网站所有的网页

本帖最后由 白龙君 于 2014-8-17 16:22 编辑

额。。。找到一个放LP的域名,想SPY一下域名下可能存放的其他LP

site高级搜索命令啥也搜索不到。。。火车采集好像也不行啊。。。

已知url格式是这样的 http://domain.com/lp/test/?s=27566552

akzovk 发表于 2014-8-17 01:37:32

如果相互有链接,或sitemap之类,肯定没问题。过滤其它信息,只要页面上有链接存在,就访问并保存,类似写个爬虫……如果没内链,我想不出来有什么办法能发现其它网页

spian2008 发表于 2014-8-17 12:01:33

如果他们之间有互链的就可以。如果没有就没有办法了。

tmdsoft 发表于 2014-8-17 15:00:26

要是我,我肯定把LP 隐藏的很深 。。不会轻易让你猜到的,用爬虫也无力,只能碰碰运气了。

白龙君 发表于 2014-8-17 16:23:42

akzovk 发表于 2014-8-17 01:37
如果相互有链接,或sitemap之类,肯定没问题。过滤其它信息,只要页面上有链接存在,就访问并保存,类似写 ...

已知url格式是这样的 http://domain.com/lp/test/?s=27566552

我昨天尝试用火车头从s=1采集,不过貌似不行啊。。。

白龙君 发表于 2014-8-17 16:27:54

malong101 发表于 2014-8-17 04:22
不知道其他文件名 就没法弄了 除非黑了他

已知url格式是这样的 http://domain.com/lp/test/?s=27566552

白龙君 发表于 2014-8-17 16:29:27

tmdsoft 发表于 2014-8-17 15:00
要是我,我肯定把LP 隐藏的很深 。。不会轻易让你猜到的,用爬虫也无力,只能碰碰运气了。 ...

已知url格式是这样的 http://domain.com/lp/test/?s=27566552

其实我是先找到他的一个LP,像看看他域名写下有没有其他LP

阿百川 发表于 2014-8-17 18:47:43

白龙君 发表于 2014-8-17 16:29
已知url格式是这样的 http://domain.com/lp/test/?s=27566552

其实我是先找到他的一个LP,像看看他域名 ...
暴力猜解s参数

akzovk 发表于 2014-8-17 21:49:32

白龙君 发表于 2014-8-17 16:23
已知url格式是这样的 http://domain.com/lp/test/?s=27566552

我昨天尝试用火车头从s=1采集,不过貌似不 ...

如果你确定test这个是不变的话,那很好办好啊,就循环采集就好了啊

fatiery 发表于 2014-8-17 21:50:49

我的第一个想法是到搜索引擎去看下是否被收录
inurl:http://domain.com/lp/test/?s=
如果没有就只能暴力猜解,暴力猜解最好自己写工具,执行效率要高,多线程。反正火车头什么的效率太低,不知道要猜解到什么时候。

白龙君 发表于 2014-8-18 15:25:58

akzovk 发表于 2014-8-17 21:49
如果你确定test这个是不变的话,那很好办好啊,就循环采集就好了啊

:) 貌似是不变的。。。我又找到了一个

白龙君 发表于 2014-8-18 15:26:35

fatiery 发表于 2014-8-17 21:50
我的第一个想法是到搜索引擎去看下是否被收录

如果没有就只能暴力猜解,暴力猜解最好自己写工具,执行效率 ...

:) 高手啊。。。。暂时还没有写采集工具的能力

bobrey 发表于 2014-8-18 18:16:05

最简单迅雷下载,【1】~【xxxxxx】

cdwyd 发表于 2014-8-24 15:47:34

如果有內链就没有任何问题,如果没有的话,自能去猜参数暴力的了
页: [1]
查看完整版本: 在知道域名的情况下,有没有可能采集这个网站所有的网页