本帖最后由 finder 于 2014-12-28 11:24 编辑 3 ~ J8 Q0 H0 P# K" w5 E4 }
2 J/ V1 h3 R7 X9 O+ c: C 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,5 @5 S2 M+ i9 m! ] r8 t ]( [
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题1 M5 ^7 X; f8 u& U, L2 F# A! ~; T
有篇blog对这个介绍的比较详细,我就不在这里赘述了
% z0 @' F# _/ h8 y6 X' B( H
4 a& j1 s R: o& j, E这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
& v; P' e9 L, b' n
2 ]0 [$ Q5 x* p+ A& M2013年09月29日17:47:27 补充 ) o8 X; e( v& S( g
( _% k# |6 \. Y3 H( A
; f ?1 ]# Q2 e( y+ O! p! {7 H' K. ?/ F; ]
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
, F8 x" }8 l. J/ d2 m) t) B- ?2 \. k* w# I# I/ @6 c0 h
- x9 d( L: o \, p
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!0 N. Z9 \; \ d2 S
9 i2 O9 O+ o4 M5 G( s5 E6 Z4 e% k
5 W3 B$ |# r8 r+ s ~ |