manman008 发表于 2019-3-14 17:57:58

网站克隆镜像软件,下载了文件,里面带有他们的标识,.....

网站克隆镜像软件,下载了文件,里面带有他们的标识,怎么去掉?

比如 WinHTTrack 这个软件 在所有页面里面都加了:

<!-- Mirrored from foshan.wfang58.com/newhouse by HTTrack Website Copier/3.x , Thu, 14 Mar 2019 06:56:13 GMT -->
<!-- Added by HTTrack --><meta http-equiv="content-type" content="text/html;charset=UTF-8" /><!-- /Added by HTTrack -->

这个软件WebZIP 7加了
<!-- Copyright � 2005. Spidersoft Ltd -->
<style>
A.applink:hover {border: 2px dotted #DCE6F4;padding:2px;background-color:#ffff00;color:green;text-decoration:none}
A.applink       {border: 2px dotted #DCE6F4;padding:2px;color:#2F5BFF;background:transparent;text-decoration:none}
A.info          {color:#2F5BFF;background:transparent;text-decoration:none}
A.info:hover    {color:green;background:transparent;text-decoration:underline}
</style>
<div style='BORDER: 1px solid #DCE6F4; MARGIN-TOP: 20px; MARGIN-BOTTOM: 20px; MARGIN-LEFT: 5px; MARGIN-RIGHT: 5px; PADDING: 5px; BACKGROUND-COLOR: #eef8ff;line-height:180%; COLOR: #000000; font-family: Arial; font-size: 8pt; width=100%; FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr="#FFFFFFFF", EndColorStr="#F2F5FAFF");'>
This page was saved using <a class="applink" href="http://www.spidersoft.com"><b>WebZIP 7.0.3.1030</b></a> <a class="applink" href="http://www.spidersoft.com"><b>offline browser</b></a>on03/14/19 14:20:17.<br>
此处省略
<!-- /Copyright � 2005. Spidersoft Ltd -->

怎么删除这些东西,都带有时间,没法批量删, 而且一个站几百几千文件的,没法处理

谁用过这2个软件 ,怎么处理的?

赔了命3000 发表于 2019-3-14 19:11:08

看看能不能正则表达式匹配删除

三分醉 发表于 2019-3-14 21:57:56

不写程序的话,可以在文件夹右上角搜索要改的文件类型,搜索结果全选中后右键使用notepad++编辑,Ctrl+h,输入要替换掉的,点击替换所有打开文件,然后保存所有就可以了。如果需要正则匹配这里也可以设置。这个方法还是有些麻烦,网上有不少小说批量编辑软件,各种替换功能的,可以去下载试试。

河小马 发表于 2019-3-15 08:34:39

克隆?是把网站的页面全部下载也来?那太困难了,现在都是动态的了

不如直接来个nginx 反代,然后用替换module 把该改的东西换成自己的

manman008 发表于 2019-3-16 12:40:34

公司用WPMU 二次开发的站, 太慢了,百度账户老是提示,大量url不宜推广,自动停掉

主管的意思, 动态的采集下来,弄成静态页面, 提高访问速度

新找了个工具 ,Internet Download Manager (IDM)   貌似可以

testman 发表于 2019-3-17 23:14:53

webzip   下载的, 用UE 打开正则表达式 替换
<!-- Copyright*[^p]*!*>替换为 空   
第一个软件没试过。

lzs5240 发表于 2019-3-19 09:14:49

河小马 发表于 2019-3-15 08:34
克隆?是把网站的页面全部下载也来?那太困难了,现在都是动态的了

不如直接来个nginx 反代,然后用替换mo ...

还是河马厉害,
最近在看春哥的 openresty 教程,
正好学习到了反代和nginx 中的 lua 编程

河小马 发表于 2019-3-19 10:05:00

lzs5240 发表于 2019-3-19 09:14
还是河马厉害,
最近在看春哥的 openresty 教程,
正好学习到了反代和nginx 中的 lua 编程 ...

不错不错

openresty很强大,很多大型公司都开始使用

杀蛙大侠 发表于 2019-3-19 15:25:39

这个软件我用过,其实感觉很一般啊。。。有点过时的感觉。。。特别是登录验证这一块做的很差,还有类似的软件都不太好用。。。整站下载,我最后总结,要么是开火车头下载,要么自己写个爬虫。
页: [1]
查看完整版本: 网站克隆镜像软件,下载了文件,里面带有他们的标识,.....