本帖最后由 finder 于 2014-12-28 11:24 编辑
% U! Y# x7 T* e9 x. N/ n( u* Y! V9 t) t
最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,- z7 r J, _. P) S6 ^
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题4 E9 K& |8 P" d' Q
有篇blog对这个介绍的比较详细,我就不在这里赘述了
9 g6 F$ F( V' Y* P7 G6 ]$ L, B$ X
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:+ x# ?7 k& X' Z' g
% t. {2 A4 }5 E I
2013年09月29日17:47:27 补充 ; h( {+ `5 b. L6 n |" n
4 ^9 W2 B4 p S5 O0 a/ R/ @6 q# v' b( Y X# J6 f8 ?! ^
+ ?1 ~* Q% B, y8 }0 K
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 1 D' s: Q, s" g/ A+ L
2 C, T7 g: ?- K; t/ @, Z" F
8 A l5 M# [3 e7 h$ s只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!* E8 E' j, L% r0 y2 Z$ \* y! i2 v& {- m
$ @1 y+ t0 ^6 g8 G, Y
1 c; y$ j9 R; h, D |