本帖最后由 finder 于 2014-12-28 11:24 编辑
. S) Z: D+ c7 v5 Y0 Y
( S6 L$ G8 W4 [* N 最近尝试一些伪原创的东西,那么第一步就是要根据策略从一定的数据源抓取信息,然后整合,替换近义词,打乱什么的,% N! i! R- U5 H5 _
做的过程中,发现了一个非常不错的开源的PHP正文提取的开源程序,可以将正文内容提取出来,准确率还不错,尤其是对blog之类的,文章里的图片也没问题
+ j; W* c' m: O S! v1 }有篇blog对这个介绍的比较详细,我就不在这里赘述了8 {7 m: o/ ~4 D) g
1 U( o3 \: a% w' O: U# `
这里可以看详细的介绍以及DEMO :- http://urlshort.shuaizhu.com/1k2
复制代码 这里你可以输入一个URL进行测试:- http://urlshort.shuaizhu.com/1k3
复制代码 这里你可以直接下载程序安装到本地:- http://urlshort.shuaizhu.com/1k4
复制代码 PS:
& u' ^7 E8 _4 u8 V
4 r4 R3 ~5 Q9 P+ y6 W& X( P. K2013年09月29日17:47:27 补充 1 h3 |: Y9 q: C, C% X$ R5 x
4 J6 f# s( {" }# u7 H8 D' X. D7 u" d
) S8 F5 O/ t. y+ w7 }) i1 ^5 `! B
: j' v+ P+ W4 @ O
我今天发现,这个自带了HTML格式预览和json结构返回2种功能,之前没有仔细读readme,也没仔细看代码
$ P+ f6 g! o6 i$ \5 H3 I1 Y% Q9 C0 ~, `. R
( I( k: s; f" a# m: q+ s1 Q1 C Z# L
只需要在调用的url中加上 &type=json 即可以json格式返回提取的正文/标题/url !!!4 ~8 n; C, V) S3 M% r( \ d. X0 f( B" y
7 A4 _" M* o3 b1 R+ `* z/ A: l J
; Q: p4 m7 Q* Y |