看来采集已经不行了

生鱼片 发表于 2016-6-3 13:16:52

有一个采集站 GOOGLE有收录
但是无论搜什么都不会出现甚至用title内容加了双引号
也不会显示结果
找个一篇文章搜标题加双引号
结果显示3000多结果，点到堤7页就没有了
估计全部被GOOGLE列为无效内容

试了把网站域名换下，结果还是这样
不知道GOOGLE用什么办法在判断采集

蛋疼。。。现在一毛流量都没

iyahoo 发表于 2016-6-3 14:59:59

本帖最后由 iyahoo 于 2016-6-3 15:02 编辑

数据库比对都是重复的在就是统计学有一两篇复制的没有关系如果统计结果显示你的网站的内容高于一定概率都是复制的 google就会断定你这个站的内容为垃圾内容自动降权处理。整个过程用统计学的算法就搞定了 google的很多东西都是使用的统计学和概率建好数学模型应用于搜索结果中。包括判断伪原创也是用统计搞定的，因为伪原创不符合大多数人的习惯。A词语后面大多数统计结果应该是B, 伪原创非要用C, 一两个无所谓，使用的多了就是非自然的结果。

54clz 发表于 2016-6-3 15:29:37

楼上很牛

bluescharp 发表于 2016-6-3 15:37:08

本帖最后由 bluescharp 于 2016-6-3 15:40 编辑

其实大致的方法就那些，公开的算法都有不少。
问题是我们知道了也没用。没有好的反制措施。相比google，我们伪原创的方法就那么些...语料库就那么少...数学模型基本没有...比如2楼说的那个markov链，其实光知道了又有什么用，我也实地测过，一样被google搞...

8943 发表于 2016-6-3 16:32:09

应该没有那么悲观吧！

l890908 发表于 2016-6-3 17:42:04

iyahoo 发表于 2016-6-3 14:59
数据库比对都是重复的在就是统计学有一两篇复制的没有关系如果统计结果显示你的网站的内容高于一定 ...

分析帝.....................

wjw_biter 发表于 2016-6-6 21:31:35

确实不行啦。

c21xdx 发表于 2016-6-8 19:46:46

额，我还等了好久，等有采集大牛跳出来拿干货打脸LZ，到现在居然没有。难道采集真不行了？:lol

刘瀚临 发表于 2016-6-11 11:55:14

做的好的采集站，流量大都来自facebook，嗯，采集站不是不行了，是无脑式采集操作不行了

net 发表于 2016-6-15 16:04:44

被拔毛了吧，采集肯定不行了，其实互联网内容已经很丰富了。。。。。

net 发表于 2016-6-15 16:21:47

刘瀚临发表于 2016-6-11 11:55
做的好的采集站，流量大都来自facebook，嗯，采集站不是不行了，是无脑式采集操作不行了 ...

嗯，来自社交媒体啊，相当于是内容分发了，流量不靠搜索引擎了

页: [1]

AdvertCN - 广告中国's Archiver

看来采集已经不行了