在知道域名的情况下,有没有可能采集这个网站所有的网页
本帖最后由 白龙君 于 2014-8-17 16:22 编辑额。。。找到一个放LP的域名,想SPY一下域名下可能存放的其他LP
site高级搜索命令啥也搜索不到。。。火车采集好像也不行啊。。。
已知url格式是这样的 http://domain.com/lp/test/?s=27566552
如果相互有链接,或sitemap之类,肯定没问题。过滤其它信息,只要页面上有链接存在,就访问并保存,类似写个爬虫……如果没内链,我想不出来有什么办法能发现其它网页 如果他们之间有互链的就可以。如果没有就没有办法了。 要是我,我肯定把LP 隐藏的很深 。。不会轻易让你猜到的,用爬虫也无力,只能碰碰运气了。 akzovk 发表于 2014-8-17 01:37
如果相互有链接,或sitemap之类,肯定没问题。过滤其它信息,只要页面上有链接存在,就访问并保存,类似写 ...
已知url格式是这样的 http://domain.com/lp/test/?s=27566552
我昨天尝试用火车头从s=1采集,不过貌似不行啊。。。 malong101 发表于 2014-8-17 04:22
不知道其他文件名 就没法弄了 除非黑了他
已知url格式是这样的 http://domain.com/lp/test/?s=27566552 tmdsoft 发表于 2014-8-17 15:00
要是我,我肯定把LP 隐藏的很深 。。不会轻易让你猜到的,用爬虫也无力,只能碰碰运气了。 ...
已知url格式是这样的 http://domain.com/lp/test/?s=27566552
其实我是先找到他的一个LP,像看看他域名写下有没有其他LP 白龙君 发表于 2014-8-17 16:29
已知url格式是这样的 http://domain.com/lp/test/?s=27566552
其实我是先找到他的一个LP,像看看他域名 ...
暴力猜解s参数 白龙君 发表于 2014-8-17 16:23
已知url格式是这样的 http://domain.com/lp/test/?s=27566552
我昨天尝试用火车头从s=1采集,不过貌似不 ...
如果你确定test这个是不变的话,那很好办好啊,就循环采集就好了啊 我的第一个想法是到搜索引擎去看下是否被收录
inurl:http://domain.com/lp/test/?s=
如果没有就只能暴力猜解,暴力猜解最好自己写工具,执行效率要高,多线程。反正火车头什么的效率太低,不知道要猜解到什么时候。 akzovk 发表于 2014-8-17 21:49
如果你确定test这个是不变的话,那很好办好啊,就循环采集就好了啊
:) 貌似是不变的。。。我又找到了一个 fatiery 发表于 2014-8-17 21:50
我的第一个想法是到搜索引擎去看下是否被收录
如果没有就只能暴力猜解,暴力猜解最好自己写工具,执行效率 ...
:) 高手啊。。。。暂时还没有写采集工具的能力 最简单迅雷下载,【1】~【xxxxxx】 如果有內链就没有任何问题,如果没有的话,自能去猜参数暴力的了
页:
[1]