从0开始做个聚合站 - 第3页 - 步步为赢: Follow Along - AdvertCN - 广告中国

兔子君 发表于 2015-9-4 21:55:03

matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup？效率太低了吧，我推荐你用一个python-readability库，用来做采集比beautifulso ...

要说效率最高肯定是RE，但是规则不容易写对，非常好使

兼顾性能和写代码效率 lxml 应该比较好吧

wjw_biter 发表于 2015-9-5 08:16:04

做过一个这样的中文站，采集了十万多页面，百度收录1600多，谷歌收了300。一天200ip，貌似没有从百度来的流量。目前搞的sae定期采集，一直扔着不管了。貌似每天百度还有新的收录，不过pr已经从1降到0了

seanhere 发表于 2015-9-5 08:38:00

BeautifulSoup写的规则特容易死掉，对异常的兼容不好；而且官方也说了，这个插件并不快，仅是使用起来方便。

James_Liu 发表于 2015-9-5 10:30:12

今日收录的46页，全部都是tag页。正文页面一个都没有。

lyf208617 发表于 2015-9-5 10:31:17

然并卵，谷歌可以检测到你的跳出率的，这种毫无可读性的文章，跳出率基本100%，所以顶多开始给你一点点流量，很快就永久打入冷宫

James_Liu 发表于 2015-9-6 10:00:03

主要收录的是Tag，其次是Category，正文目前收录了一篇。有1个来自美国的Organic访问，关键词不详。

matc 发表于 2015-9-6 14:33:17

兔子君发表于 2015-9-4 21:55
要说效率最高肯定是RE，但是规则不容易写对，非常好使

兼顾性能和写代码效率 lxml 应该比较好吧 ...

我说的是人的效率，不是机器的效率。不用一个个网站去匹配，否则累死。

matc 发表于 2015-9-6 14:34:32

阿百川发表于 2015-9-4 17:24
还是可以糊弄gg的，文章随机乱序+多站链轮，虽然死得快但流量上的也很快

https://www.google.com/search ...

过了新站效应就死，域名钱都无法收回。

阿百川 发表于 2015-9-6 18:13:51

matc 发表于 2015-9-6 14:34
过了新站效应就死，域名钱都无法收回。

应该还是赚钱的，域名已经换了N批，如果不赚钱早就不搞了

按照类似手法搞的几个英文站已经坚持两个月以上，日ip300-500

James_Liu 发表于 2015-9-7 09:37:42

收录继续增加，依然主要是Tag和Category页，开始有一部分正文页被收录了。
修复程序中Tag分配不均匀的问题，补充少部分大人小说作为文章源。

James_Liu 发表于 2015-9-8 09:18:11

说明：无

James_Liu 发表于 2015-9-9 10:09:15

依然正常的收录和更新，没有什么特殊情况。今天上线中文版网站，昨天废了半天功夫才把程序改好，中文分句、分词真是费劲！

后期数据更新频率降低，不在一天一更新了。等到有明显异变了再更新。

cctv886 发表于 2015-9-9 14:59:39

好厉害，楼主加油

c21xdx 发表于 2015-9-10 09:55:07

收录简单，关键是不来流量啊

左眼跳 发表于 2015-9-11 11:43:46

乱序不太靠谱吧python有个结巴分词找个词库替换下关键词呗

页: 1 2 [3] 4

AdvertCN - 广告中国's Archiver