也说说大数据站的收录
先界定下1. Niche:tube站,老司机都懂的。2. 收录数量:底部翻页有10页,在google中site时显示的数量。研究别人的站也不可能看GWT的数据吧。
3. 收录数>100万
观察的:
1. 一大批收录数过百万的都被拔毛。不管是不是spam,都可能被拔毛。
2. 观察到有两类都被拔毛:
1)没有外链或很少的外链,站群间很少互链,收录数1000w+。被拔毛应该是人工,往往一锅端。
2)对deep link进行spam,收录数1000w+。被拔毛是单个站,没有一锅端。
测试的( 没有或很少外链,新注册域名 的情况下):
1. 站内各种内链使自然收录。慢,很慢,很很慢
2. 各种方式提交url,依然可以让spider大规模爬行(单站一天10w+的爬行,持续不到一周),但流量不会像以前那样的一个月就开始流量飙升。
3. deep link spam 还没测试。目前来看这种方式存活的久,被拔毛也能止损
4. 站群间deep link:还没测,但之前看过有阿三的站这么搞。
顺带一提:
tube本身就没什么内容,曾进行过各种伪原创: 用指纹算法检查过相似度,用markov组合过数据.......对收录测试结果几乎没有影响。
测试的( 没有或很少外链,新注册域名 的情况下):
1. 站内各种内链使自然收录。慢,很慢,很很慢
垃圾站的收录确实很慢,还有大量收录后,收录量会不断减少的情况,一个有几十W网页的网站到最后可能只能收录几千页了。:Q 这种站放adsense不怕封么?
见过阿三的大数据站流量都很大,mp3、电影、大人站。
我也曾经想试来着,卡在收录上。1000万数据怎么采集和伪原创处理?很费劲啊。 billy 发表于 2018-10-11 16:22
这种站放adsense不怕封么?
见过阿三的大数据站流量都很大,mp3、电影、大人站。
我也曾经想试来着,卡在收 ...
这种不放adsense啊,pop/cpm。也有国人买这种流量,然后hijack 搞adsense作弊的,一直活了好些年,现在还在搞。
采集原始数据真不是问题,有的有现成的数据混合一下,1000w+的数据量就有了。有的得花点时间自动收集下,但初始搞个700w+的数据也不成问题。
伪原创没什么好思路,这类站点信息量很少,随便弄下,跟原始数据就有差异了。但事实上,效果却没有,既不正面也不负面....
收录是大问题:一是时间,二是数量。
阿三的一些站有年头了,过去收录这个太容易。今年以来,新上的站越来越难收录了。
bluescharp 发表于 2018-10-12 09:10
这种不放adsense啊,pop/cpm。也有国人买这种流量,然后hijack 搞adsense作弊的,一直活了好些年,现在还 ...
pop单价太低了,cpm1刀不到,得几十万流量吧。 本帖最后由 wellos 于 2018-10-12 12:08 编辑
tube站最终拼的是带宽资源和用户体验。 本人做站群,收录都是百万左右,谷歌确实k站k的厉害 收录根本就不是问题,问题是如何不被k 行走的路人甲 发表于 2018-10-12 15:15
收录根本就不是问题,问题是如何不被k
为什么俺 的站,就收录的内容特别少呢?是因为外链少吗? 本帖最后由 billy 于 2018-10-12 16:46 编辑
行走的路人甲 发表于 2018-10-12 15:15
收录根本就不是问题,问题是如何不被k
k站是收录减少了还是清零了?
收录减少是不是被判断为内容重复?
清零了的话就牛x了...
版权问题被人工了?
收录怎么解决?都卡在收录上了,速度很慢。 行走的路人甲 发表于 2018-10-12 15:15
收录根本就不是问题,问题是如何不被k
被清零根本不是问题,再上一批就行了啊
难的就是快速收录 1000万数据 怎么储存一般php程序很容易崩溃的 有案例站吗 如果一天所有用户的在线时间比较可观的话,挂点JS挖矿也不错的。 测试过一段时间 大概6000万数据,后台提交网站地图,收录飞快。
大概一个月左右上量能过一万IP,然后很快被人工审核K掉,心累:Q
页:
[1]
2