生鱼片 发表于 2016-6-3 13:16:52

看来采集已经不行了

有一个采集站 GOOGLE有收录
但是无论搜什么都不会出现 甚至 用title内容加了 双引号
也不会显示结果
找个一篇文章 搜标题加双引号
结果显示3000多结果,点到堤7页就没有了
估计全部被GOOGLE列为无效内容

试了把网站域名换下,结果还是这样
不知道GOOGLE用什么办法在判断采集

蛋疼。。。现在一毛流量都没

iyahoo 发表于 2016-6-3 14:59:59

本帖最后由 iyahoo 于 2016-6-3 15:02 编辑

数据库比对 都是重复的 在就是统计学 有一两篇复制的 没有关系 如果统计结果显示 你的网站的内容 高于一定概率 都是复制的 google就会断定你这个站的内容为垃圾内容 自动降权处理。整个过程 用统计学的算法就搞定了 google的很多东西 都是使用的 统计学和概率 建好数学模型应用于搜索结果中。包括判断伪原创也是用统计搞定的,因为伪原创不符合大多数人的习惯。A词语后面大多数统计结果应该是B, 伪原创非要用C, 一两个无所谓,使用的多了就是非自然的结果。

54clz 发表于 2016-6-3 15:29:37

楼上很牛            

bluescharp 发表于 2016-6-3 15:37:08

本帖最后由 bluescharp 于 2016-6-3 15:40 编辑

其实大致的方法就那些,公开的算法都有不少。
问题是我们知道了也没用。没有好的反制措施。相比google,我们伪原创的方法就那么些...语料库就那么少...数学模型基本没有...比如2楼说的那个markov链,其实光知道了又有什么用,我也实地测过,一样被google搞...

8943 发表于 2016-6-3 16:32:09

应该没有那么悲观吧!

l890908 发表于 2016-6-3 17:42:04

iyahoo 发表于 2016-6-3 14:59
数据库比对 都是重复的 在就是统计学 有一两篇复制的 没有关系 如果统计结果显示 你的网站的内容 高于一定 ...

分析帝.....................

wjw_biter 发表于 2016-6-6 21:31:35

确实不行啦。

c21xdx 发表于 2016-6-8 19:46:46

额,我还等了好久,等有采集大牛跳出来拿干货打脸LZ, 到现在居然没有。难道采集真不行了?:lol

刘瀚临 发表于 2016-6-11 11:55:14

做的好的采集站,流量大都来自facebook,嗯,采集站不是不行了,是无脑式采集操作不行了

net 发表于 2016-6-15 16:04:44

被拔毛了吧,采集肯定不行了,其实互联网内容已经很丰富了。。。。。

net 发表于 2016-6-15 16:21:47

刘瀚临 发表于 2016-6-11 11:55
做的好的采集站,流量大都来自facebook,嗯,采集站不是不行了,是无脑式采集操作不行了 ...

嗯,来自社交媒体啊,相当于是内容分发了,流量不靠搜索引擎了
页: [1]
查看完整版本: 看来采集已经不行了