bjzhush 发表于 2013-9-28 19:08:26

一个开源的正文提取程序

本帖最后由 finder 于 2014-12-28 11:24 编辑

   最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
有篇blog对这个介绍的比较详细,我就不在这里赘述了

这里可以看详细的介绍以及DEMO :http://urlshort.shuaizhu.com/1k2这里你可以输入一个URL进行测试:http://urlshort.shuaizhu.com/1k3这里你可以直接下载程序安装到本地:http://urlshort.shuaizhu.com/1k4PS:

2013年09月29日17:47:27 补充



我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码


只需要在调用的url中加上&type=json即可以json格式返回提取的正文/标题/url !!!


bjzhush 发表于 2013-9-28 22:18:29

感谢 @mj23zyb帮我编辑URL格式,以前论坛用的少,这个还不太熟,以后我会注意

阴天的下午 发表于 2013-9-28 22:31:06

不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。

bjzhush 发表于 2013-9-28 22:35:44

阴天的下午 发表于 2013-9-28 22:31 static/image/common/back.gif
不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。 ...

这个东西做一个接口非常容易的
       $title   = $Data['title'];
      $content = $Data['content'];
      include 'template/reader.html';
这是index.php的最后的部分,只需要把include所在的一行注释掉,然后加一行
      echo json_encode($Data);
就可以以json格式返回,那么需要批量的时候,直接每次调取就可以了
如果还不清楚,可以继续问

阿百川 发表于 2013-9-29 07:55:00

自从用过这个之后,自己用的模板就全修改了一遍:L

JasonLee 发表于 2013-9-29 10:32:56

感谢 真心很不错的 希望楼主以后能继续分享类似的

bjzhush 发表于 2013-9-29 11:07:47

阿百川 发表于 2013-9-29 07:55 static/image/common/back.gif
自从用过这个之后,自己用的模板就全修改了一遍

什么意思呢? 为什么要修改模板

阿百川 发表于 2013-9-29 11:42:16

bjzhush 发表于 2013-9-29 11:07 static/image/common/back.gif
什么意思呢? 为什么要修改模板

防止被这种程序提取内容:lol

bjzhush 发表于 2013-9-29 11:53:13

阿百川 发表于 2013-9-29 11:42 static/image/common/back.gif
防止被这种程序提取内容

真的要扒你的站,你是防不住的
不怕贼偷,就怕贼惦记,哈哈

bjzhush 发表于 2013-9-29 17:48:25

阴天的下午 发表于 2013-9-28 22:31 static/image/common/back.gif
不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。 ...

我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码


只需要在调用的url中加上&type=json即可以json格式返回提取的正文/标题/url !!

今天刚刚发现的
页: [1]
查看完整版本: 一个开源的正文提取程序