一个开源的正文提取程序
本帖最后由 finder 于 2014-12-28 11:24 编辑最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
有篇blog对这个介绍的比较详细,我就不在这里赘述了
这里可以看详细的介绍以及DEMO :http://urlshort.shuaizhu.com/1k2这里你可以输入一个URL进行测试:http://urlshort.shuaizhu.com/1k3这里你可以直接下载程序安装到本地:http://urlshort.shuaizhu.com/1k4PS:
2013年09月29日17:47:27 补充
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
只需要在调用的url中加上&type=json即可以json格式返回提取的正文/标题/url !!!
感谢 @mj23zyb帮我编辑URL格式,以前论坛用的少,这个还不太熟,以后我会注意 不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。 阴天的下午 发表于 2013-9-28 22:31 static/image/common/back.gif
不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。 ...
这个东西做一个接口非常容易的
$title = $Data['title'];
$content = $Data['content'];
include 'template/reader.html';
这是index.php的最后的部分,只需要把include所在的一行注释掉,然后加一行
echo json_encode($Data);
就可以以json格式返回,那么需要批量的时候,直接每次调取就可以了
如果还不清楚,可以继续问
自从用过这个之后,自己用的模板就全修改了一遍:L 感谢 真心很不错的 希望楼主以后能继续分享类似的 阿百川 发表于 2013-9-29 07:55 static/image/common/back.gif
自从用过这个之后,自己用的模板就全修改了一遍
什么意思呢? 为什么要修改模板 bjzhush 发表于 2013-9-29 11:07 static/image/common/back.gif
什么意思呢? 为什么要修改模板
防止被这种程序提取内容:lol 阿百川 发表于 2013-9-29 11:42 static/image/common/back.gif
防止被这种程序提取内容
真的要扒你的站,你是防不住的
不怕贼偷,就怕贼惦记,哈哈 阴天的下午 发表于 2013-9-28 22:31 static/image/common/back.gif
不错,好东西,刚试试了下网页版的还可以,不知道工具有无批量转换的功能。 ...
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
只需要在调用的url中加上&type=json即可以json格式返回提取的正文/标题/url !!
今天刚刚发现的
页:
[1]