一个开源的正文提取程序

bjzhush · 发表于 2013-9-28 19:08:26

本帖最后由 finder 于 2014-12-28 11:24 编辑

最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
有篇blog对这个介绍的比较详细,我就不在这里赘述了

这里可以看详细的介绍以及DEMO :

http://urlshort.shuaizhu.com/1k2

复制代码

这里你可以输入一个URL进行测试:

http://urlshort.shuaizhu.com/1k3

复制代码

这里你可以直接下载程序安装到本地:

http://urlshort.shuaizhu.com/1k4

复制代码

PS:

2013年09月29日17:47:27 补充

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!

bjzhush · 发表于 2013-9-28 22:18:29

感谢 @mj23zyb 帮我编辑URL格式,以前论坛用的少,这个还不太熟,以后我会注意

阴天的下午 · 发表于 2013-9-28 22:31:06

不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。

bjzhush · 发表于 2013-9-28 22:35:44

阴天的下午发表于 2013-9-28 22:31 5 Q# g/ B9 M5 L
不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

这个东西做一个接口非常容易的
   $title = $Data['title'];
      $content = $Data['content'];
      include 'template/reader.html';
这是index.php的最后的部分,只需要把include所在的一行注释掉,然后加一行
      echo json_encode($Data);
就可以以json格式返回,那么需要批量的时候,直接每次调取就可以了
如果还不清楚,可以继续问

阿百川 · 发表于 2013-9-29 07:55:00

自从用过这个之后，自己用的模板就全修改了一遍

JasonLee · 发表于 2013-9-29 10:32:56

感谢真心很不错的希望楼主以后能继续分享类似的

bjzhush · 发表于 2013-9-29 11:07:47

阿百川发表于 2013-9-29 07:55 f, N- m) H* D! `" ~. Q9 R* M
自从用过这个之后，自己用的模板就全修改了一遍

什么意思呢? 为什么要修改模板

阿百川 · 发表于 2013-9-29 11:42:16

bjzhush 发表于 2013-9-29 11:07 - V+ G6 }5 Q# f, j; E
什么意思呢? 为什么要修改模板

防止被这种程序提取内容

bjzhush · 发表于 2013-9-29 11:53:13

阿百川发表于 2013-9-29 11:42
# f) Z0 \% a! x0 K+ q防止被这种程序提取内容

真的要扒你的站,你是防不住的
不怕贼偷,就怕贼惦记,哈哈

bjzhush · 发表于 2013-9-29 17:48:25

阴天的下午发表于 2013-9-28 22:31
- K D* t9 H/ L$ R/ I$ V不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!

今天刚刚发现的

用户名		自动登录	找回密码
密码			立即注册

谷歌+Bing+TT+MSN官方代理	⚡️按条S5代理⚡️静态⚡️独享⚡️5G	需要代理IP?⚡️Proxysites.ai⚡️	指纹浏览器，就用AdsPower
Mediabuy⚡️玩家开户首选	【鲁班跨境通-自助充值转账】	FB/GG/TT❤️官方免费开户	Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理	*开户投流-724h❤️人工在线**	【官方】❤️搜索套利买量投流开户	独立站⚡️开户投放
FB BM不限额，短id账单户	E.PN 虚拟卡	DuoPlus专注打造跨境电商云手机	BINOM TRACKER 60% OFF!
比Adplexity还好用的Spy工具	ADPLEXITY + ADVERTCN	7200W全球动态不重复住宅IP代理	虚拟信用卡+独立站收款
全球虚拟卡, 支持U充值	Facebook 批量上广告	尤里改 - FB 稳定投放	免费黑五教程（持续更新、欢迎交流）
FB 三不限源头 - 自助下户充值转款	各种主页、账单户、BM户（优势）	⚡️个人户，bm户不限额，账单户	9Proxy ⚡️ $0.04/IP, 无限带宽
IPCola原生住宅IP⚡️$2.1/条双ISP	Google、Bing官方总代联盟流量开户	fb耐用号0.01一个	fb账号官方合作商
FB资源，账单户，分享户，国内一手	FB企业户BM户账单户源头	PTM全球虚拟卡—进来交个朋友!	PTM虚拟卡⚡️费率透明⚡️额度随心
广告位出租

[软件工具] 一个开源的正文提取程序

评分

社区QQ达人