看来采集已经不行了
有一个采集站 GOOGLE有收录但是无论搜什么都不会出现 甚至 用title内容加了 双引号
也不会显示结果
找个一篇文章 搜标题加双引号
结果显示3000多结果,点到堤7页就没有了
估计全部被GOOGLE列为无效内容
试了把网站域名换下,结果还是这样
不知道GOOGLE用什么办法在判断采集
蛋疼。。。现在一毛流量都没
本帖最后由 iyahoo 于 2016-6-3 15:02 编辑
数据库比对 都是重复的 在就是统计学 有一两篇复制的 没有关系 如果统计结果显示 你的网站的内容 高于一定概率 都是复制的 google就会断定你这个站的内容为垃圾内容 自动降权处理。整个过程 用统计学的算法就搞定了 google的很多东西 都是使用的 统计学和概率 建好数学模型应用于搜索结果中。包括判断伪原创也是用统计搞定的,因为伪原创不符合大多数人的习惯。A词语后面大多数统计结果应该是B, 伪原创非要用C, 一两个无所谓,使用的多了就是非自然的结果。 楼上很牛 本帖最后由 bluescharp 于 2016-6-3 15:40 编辑
其实大致的方法就那些,公开的算法都有不少。
问题是我们知道了也没用。没有好的反制措施。相比google,我们伪原创的方法就那么些...语料库就那么少...数学模型基本没有...比如2楼说的那个markov链,其实光知道了又有什么用,我也实地测过,一样被google搞...
应该没有那么悲观吧! iyahoo 发表于 2016-6-3 14:59
数据库比对 都是重复的 在就是统计学 有一两篇复制的 没有关系 如果统计结果显示 你的网站的内容 高于一定 ...
分析帝..................... 确实不行啦。 额,我还等了好久,等有采集大牛跳出来拿干货打脸LZ, 到现在居然没有。难道采集真不行了?:lol 做的好的采集站,流量大都来自facebook,嗯,采集站不是不行了,是无脑式采集操作不行了 被拔毛了吧,采集肯定不行了,其实互联网内容已经很丰富了。。。。。 刘瀚临 发表于 2016-6-11 11:55
做的好的采集站,流量大都来自facebook,嗯,采集站不是不行了,是无脑式采集操作不行了 ...
嗯,来自社交媒体啊,相当于是内容分发了,流量不靠搜索引擎了
页:
[1]