一个开源的正文提取程序

bjzhush · 发表于 2013-9-28 19:08:26

本帖最后由 finder 于 2014-12-28 11:24 编辑

最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
有篇blog对这个介绍的比较详细,我就不在这里赘述了

这里可以看详细的介绍以及DEMO :

http://urlshort.shuaizhu.com/1k2

复制代码

这里你可以输入一个URL进行测试:

http://urlshort.shuaizhu.com/1k3

复制代码

这里你可以直接下载程序安装到本地:

http://urlshort.shuaizhu.com/1k4

复制代码

PS:

2013年09月29日17:47:27 补充

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!

bjzhush · 发表于 2013-9-28 22:18:29

感谢 @mj23zyb 帮我编辑URL格式,以前论坛用的少,这个还不太熟,以后我会注意

阴天的下午 · 发表于 2013-9-28 22:31:06

不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。

bjzhush · 发表于 2013-9-28 22:35:44

阴天的下午发表于 2013-9-28 22:31 ( u/ J1 n2 w6 R; ~9 \4 l+ g& p
不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

这个东西做一个接口非常容易的
   $title = $Data['title'];
      $content = $Data['content'];
      include 'template/reader.html';
这是index.php的最后的部分,只需要把include所在的一行注释掉,然后加一行
      echo json_encode($Data);
就可以以json格式返回,那么需要批量的时候,直接每次调取就可以了
如果还不清楚,可以继续问

阿百川 · 发表于 2013-9-29 07:55:00

自从用过这个之后，自己用的模板就全修改了一遍

JasonLee · 发表于 2013-9-29 10:32:56

感谢真心很不错的希望楼主以后能继续分享类似的

bjzhush · 发表于 2013-9-29 11:07:47

阿百川发表于 2013-9-29 07:55
# B/ V! I' T" z$ o! r+ L- i自从用过这个之后，自己用的模板就全修改了一遍

什么意思呢? 为什么要修改模板

阿百川 · 发表于 2013-9-29 11:42:16

bjzhush 发表于 2013-9-29 11:07 / h6 B7 D& \) F# s
什么意思呢? 为什么要修改模板

防止被这种程序提取内容

bjzhush · 发表于 2013-9-29 11:53:13

阿百川发表于 2013-9-29 11:42 & f' m* I* O* Y9 ~' m! ?
防止被这种程序提取内容

真的要扒你的站,你是防不住的
不怕贼偷,就怕贼惦记,哈哈

bjzhush · 发表于 2013-9-29 17:48:25

阴天的下午发表于 2013-9-28 22:31 % W \+ m1 w$ P5 i1 [* y( G2 ~
不错，好东西，刚试试了下网页版的还可以，不知道工具有无批量转换的功能。 ...

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码

只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!

今天刚刚发现的

		自动登录	找回密码
密码			立即注册

谷歌+Bing+TT+MSN官方代理	⚡️按条S5代理⚡️静态⚡️独享⚡️5G	⚡️最干净<Wifi住宅+5G移动>IP代理	指纹浏览器，就用AdsPower
Mediabuy⚡️玩家开户首选	【鲁班跨境通-自助充值转账】	FB/GG/TT❤️官方免费开户	Affiliate 全媒体流量资源⚡️
Taboola/Outbrain /Bing⚡️一级代理	*开户投流-724h❤️人工在线**	【官方】❤️搜索套利广告开户	独立站⚡️开户投放
DuoPlus专注打造跨境电商云手机	E.PN 虚拟卡	BINOM TRACKER 60% OFF!	比Adplexity还好用的Spy工具
MediaGo+Taboola+Ob开户	百度国际MediaGo⚡️让产品狂奔全球	百度国际，高点击转化，快速放量	百度国际MediaGo，独家原生流量
ADPLEXITY + ADVERTCN	7200W全球动态不重复住宅IP代理	虚拟信用卡+独立站收款	全球虚拟卡, 支持U充值
Facebook 批量上广告	尤里改 - FB 稳定投放	免费黑五教程（持续更新、欢迎交流）	FB 三不限源头 - 自助下户充值转款
各种主页、账单户、BM户（优势）	⚡️个人户，bm户不限额，账单户	一手BM分享户不限额	9Proxy ⚡️ $0.04/IP, 无限带宽
FB二三解0.1元一个	虚拟卡\|PTM星际卡	FB专用虚拟卡	Google、Bing官方总代联盟流量开户
FB账号资源/稳定靠谱/运行5年啦	FB开户代投/三不限/白名单	fb耐用号0.01一个	fb账号官方合作商
广告位出租

[软件工具] 一个开源的正文提取程序

评分

浏览过的版块

社区QQ达人