兔子君
发表于 2015-9-4 21:55:03
matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...
要说效率最高肯定是RE,但是规则不容易写对,非常好使
兼顾性能和写代码效率 lxml 应该比较好吧
wjw_biter
发表于 2015-9-5 08:16:04
做过一个这样的中文站,采集了十万多页面,百度收录1600多,谷歌收了300。一天200ip,貌似没有从百度来的流量。目前搞的sae定期采集,一直扔着不管了。貌似每天百度还有新的收录,不过pr已经从1降到0了
seanhere
发表于 2015-9-5 08:38:00
BeautifulSoup写的规则特容易死掉,对异常的兼容不好;而且官方也说了,这个插件并不快,仅是使用起来方便。
James_Liu
发表于 2015-9-5 10:30:12
今日收录的46页,全部都是tag页。正文页面一个都没有。
lyf208617
发表于 2015-9-5 10:31:17
然并卵,谷歌可以检测到你的跳出率的,这种毫无可读性的文章,跳出率基本100%,所以顶多开始给你一点点流量,很快就永久打入冷宫
James_Liu
发表于 2015-9-6 10:00:03
主要收录的是Tag,其次是Category,正文目前收录了一篇。 有1个来自美国的Organic访问,关键词不详。
matc
发表于 2015-9-6 14:33:17
兔子君 发表于 2015-9-4 21:55
要说效率最高肯定是RE,但是规则不容易写对,非常好使
兼顾性能和写代码效率 lxml 应该比较好吧 ...
我说的是人的效率,不是机器的效率。不用一个个网站去匹配,否则累死。
matc
发表于 2015-9-6 14:34:32
阿百川 发表于 2015-9-4 17:24
还是可以糊弄gg的,文章随机乱序+多站链轮,虽然死得快但流量上的也很快
https://www.google.com/search ...
过了新站效应就死,域名钱都无法收回。
阿百川
发表于 2015-9-6 18:13:51
matc 发表于 2015-9-6 14:34
过了新站效应就死,域名钱都无法收回。
应该还是赚钱的,域名已经换了N批,如果不赚钱早就不搞了
按照类似手法搞的几个英文站已经坚持两个月以上,日ip300-500
James_Liu
发表于 2015-9-7 09:37:42
收录继续增加,依然主要是Tag和Category页,开始有一部分正文页被收录了。
修复程序中Tag分配不均匀的问题,补充少部分大人小说作为文章源。
James_Liu
发表于 2015-9-8 09:18:11
说明:无
James_Liu
发表于 2015-9-9 10:09:15
依然正常的收录和更新,没有什么特殊情况。今天上线中文版网站,昨天废了半天功夫才把程序改好,中文分句、分词真是费劲!
后期数据更新频率降低,不在一天一更新了。等到有明显异变了再更新。
cctv886
发表于 2015-9-9 14:59:39
好厉害,楼主加油
c21xdx
发表于 2015-9-10 09:55:07
收录简单,关键是不来流量啊
左眼跳
发表于 2015-9-11 11:43:46
乱序不太靠谱吧python有个结巴分词找个词库替换下关键词呗