从0开始做个聚合站 - 第2页 - 步步为赢: Follow Along - AdvertCN - 广告中国

wqz 发表于 2015-9-1 20:57:09

James_Liu 发表于 2015-9-1 15:10
一起交流啊！这个过程估计会比较慢才能看到效果，我计划做个英文站，再做个中文站试试。 ...

一个是收录慢，另外一个是收录了没排名。

leeker 发表于 2015-9-1 21:19:17

空格无敌发表于 2015-9-1 18:14
这种站靠SEO是很难的，试试社交流量，社交流量上来了也很好的。

他把语句随机打乱了再社交引流？

hudba 发表于 2015-9-1 22:18:56

很厉害，期待更新呀

我就是新手 发表于 2015-9-1 22:47:27

你可不可以不要这么牛逼

seanhere 发表于 2015-9-1 23:20:23

本帖最后由 seanhere 于 2015-9-1 23:22 编辑

Lebron.Meng 发表于 2015-9-1 20:56
楼上正解，走流量SEO可能不太合适
这种垃圾站只能靠SEO流量吧，不过只有上足够大的文章量做基数之后，才会有一定比例的长尾流量，一两个站内容太少，这样测试周期会非常长还不见效。
社交没有人看的，内容不可读，更别提传播了

seanhere 发表于 2015-9-1 23:30:19

知道几个做垃圾站的大牛，应该有前途的，做好了可以跟正规站平分秋色，再说大洲的镜像SM应该也属于这一类吧。

小远发表于 2015-9-2 00:55:21

我的站有十四万数据，只收录了两万多，都一个月了

潇洒哥er 发表于 2015-9-2 09:45:58

比较关注PYTHON的采集技术。

James_Liu 发表于 2015-9-2 09:49:27

潇洒哥er 发表于 2015-9-2 09:45
比较关注PYTHON的采集技术。

这个没有特别难的，我这里只采集正文，而且文章也不要求可读性。所有就用了BeautifulSoup过滤p标签。

我设定了一组种子网站，爬虫沿着种子站爬出去，只保存正文，判断正文字符数大于500就保留，否则就舍弃。

受制于URL存储和排重问题，这个爬虫无法一直爬，爬到一定程度就爬不动了。我就重启程序，重新给种子...

就是这么简单。

Atrus 发表于 2015-9-2 10:12:20

牛奔啊这个现在只能靠量取胜，当然有技术还是有饭吃啊
仅靠自动博什么的这类初级采集站顶多只是饿不死

gger 发表于 2015-9-2 10:45:43

年代过去了

ads419 发表于 2015-9-2 14:00:58

3W收录，每天1IP，别问我是怎么知道的

matc 发表于 2015-9-3 08:48:54

正文采集你用beautifulsoup？效率太低了吧，我推荐你用一个python-readability库，用来做采集比beautifulsoup高太多了。
但是，我得说这样做并无什么作用，你的玩法已经过时10多年了，连百度都糊弄不了了。
我最近在通过分词的方法来进行小段文字的替换，稍微能糊弄一下google，但是寿命也并长，何况你的随机替换....
采集站我觉得现在能玩的可能就是河马的那个思路了，可以去翻翻看看他最近的帖子。

James_Liu 发表于 2015-9-4 10:12:55

matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup？效率太低了吧，我推荐你用一个python-readability库，用来做采集比beautifulso ...

多谢分享！干货很多

阿百川 发表于 2015-9-4 17:24:03

matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup？效率太低了吧，我推荐你用一个python-readability库，用来做采集比beautifulso ...

还是可以糊弄gg的，文章随机乱序+多站链轮，虽然死得快但流量上的也很快

https://www.google.com/search?q=少时原版法庭

连续N页都是这种站

页: 1 [2] 3 4

AdvertCN - 广告中国's Archiver