本帖最后由 finder 于 2014-12-28 11:24 编辑
$ G4 M+ F: r/ K
. k7 _0 x5 i/ B/ e7 T$ m3 Q 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,
6 U9 y5 A2 ^& N5 w! `3 x. E( I做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
% q) E& ~) d. ]; ]. I& l有篇blog对这个介绍的比较详细,我就不在这里赘述了& F4 w8 g$ T9 y/ _% ^
; H3 [4 V2 p4 \; o: O/ d1 w6 Y
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS: b! x0 R- {7 h8 q$ D+ f; ~, C$ B
- D! j1 P( F. w$ h0 @5 z# o2 ?2013年09月29日17:47:27 补充
# w2 L- ?/ R/ N% t: I
, W' G4 X8 E2 f8 d. Q* _* [4 A) H2 ~
/ N/ a7 n3 L1 c+ w
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码 & T$ ~9 F. H X) f
6 N+ k0 X5 |0 ]
; f8 V' ?5 ^: [7 P7 B
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!) U# o# e& W% X3 `5 b1 x
/ W( t9 _, V0 u& a) c
1 N1 R* V, ? l/ b k9 I- i8 M |