兔子君 发表于 2015-9-4 21:55:03

matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...

要说效率最高肯定是RE,但是规则不容易写对,非常好使

兼顾性能和写代码效率 lxml 应该比较好吧

wjw_biter 发表于 2015-9-5 08:16:04

做过一个这样的中文站,采集了十万多页面,百度收录1600多,谷歌收了300。一天200ip,貌似没有从百度来的流量。目前搞的sae定期采集,一直扔着不管了。貌似每天百度还有新的收录,不过pr已经从1降到0了

seanhere 发表于 2015-9-5 08:38:00

BeautifulSoup写的规则特容易死掉,对异常的兼容不好;而且官方也说了,这个插件并不快,仅是使用起来方便。

James_Liu 发表于 2015-9-5 10:30:12



今日收录的46页,全部都是tag页。正文页面一个都没有。

lyf208617 发表于 2015-9-5 10:31:17

然并卵,谷歌可以检测到你的跳出率的,这种毫无可读性的文章,跳出率基本100%,所以顶多开始给你一点点流量,很快就永久打入冷宫

James_Liu 发表于 2015-9-6 10:00:03



主要收录的是Tag,其次是Category,正文目前收录了一篇。 有1个来自美国的Organic访问,关键词不详。

matc 发表于 2015-9-6 14:33:17

兔子君 发表于 2015-9-4 21:55
要说效率最高肯定是RE,但是规则不容易写对,非常好使

兼顾性能和写代码效率 lxml 应该比较好吧 ...

我说的是人的效率,不是机器的效率。不用一个个网站去匹配,否则累死。

matc 发表于 2015-9-6 14:34:32

阿百川 发表于 2015-9-4 17:24
还是可以糊弄gg的,文章随机乱序+多站链轮,虽然死得快但流量上的也很快

https://www.google.com/search ...

过了新站效应就死,域名钱都无法收回。

阿百川 发表于 2015-9-6 18:13:51

matc 发表于 2015-9-6 14:34
过了新站效应就死,域名钱都无法收回。

应该还是赚钱的,域名已经换了N批,如果不赚钱早就不搞了

按照类似手法搞的几个英文站已经坚持两个月以上,日ip300-500

James_Liu 发表于 2015-9-7 09:37:42



收录继续增加,依然主要是Tag和Category页,开始有一部分正文页被收录了。
修复程序中Tag分配不均匀的问题,补充少部分大人小说作为文章源。

James_Liu 发表于 2015-9-8 09:18:11



说明:无

James_Liu 发表于 2015-9-9 10:09:15



依然正常的收录和更新,没有什么特殊情况。今天上线中文版网站,昨天废了半天功夫才把程序改好,中文分句、分词真是费劲!

后期数据更新频率降低,不在一天一更新了。等到有明显异变了再更新。

cctv886 发表于 2015-9-9 14:59:39

好厉害,楼主加油

c21xdx 发表于 2015-9-10 09:55:07

收录简单,关键是不来流量啊

左眼跳 发表于 2015-9-11 11:43:46

乱序不太靠谱吧python有个结巴分词找个词库替换下关键词呗
页: 1 2 [3] 4
查看完整版本: 从0开始做个聚合站