wqz 发表于 2015-9-1 20:57:09

James_Liu 发表于 2015-9-1 15:10
一起交流啊! 这个过程估计会比较慢才能看到效果,我计划做个英文站,再做个中文站试试。 ...

一个是收录慢,另外一个是收录了没排名。

leeker 发表于 2015-9-1 21:19:17

空格无敌 发表于 2015-9-1 18:14
这种站靠SEO是很难的,试试社交流量,社交流量上来了也很好的。

他把语句随机打乱了再社交引流?

hudba 发表于 2015-9-1 22:18:56

很厉害,期待更新呀

我就是新手 发表于 2015-9-1 22:47:27

你可不可以不要这么牛逼

seanhere 发表于 2015-9-1 23:20:23

本帖最后由 seanhere 于 2015-9-1 23:22 编辑

Lebron.Meng 发表于 2015-9-1 20:56
楼上正解,走流量SEO可能不太合适
这种垃圾站只能靠SEO流量吧,不过只有上足够大的文章量做基数之后,才会有一定比例的长尾流量,一两个站内容太少,这样测试周期会非常长还不见效。
社交没有人看的,内容不可读,更别提传播了

seanhere 发表于 2015-9-1 23:30:19

知道几个做垃圾站的大牛,应该有前途的,做好了可以跟正规站平分秋色, 再说大洲的镜像SM应该也属于这一类吧。

小远 发表于 2015-9-2 00:55:21

我的站有十四万数据,只收录了两万多,都一个月了

潇洒哥er 发表于 2015-9-2 09:45:58

比较关注PYTHON的采集技术。

James_Liu 发表于 2015-9-2 09:49:27

潇洒哥er 发表于 2015-9-2 09:45
比较关注PYTHON的采集技术。

这个没有特别难的,我这里只采集正文,而且文章也不要求可读性。所有就用了BeautifulSoup过滤p标签。

我设定了一组种子网站,爬虫沿着种子站爬出去,只保存正文,判断正文字符数大于500就保留,否则就舍弃。

受制于URL存储和排重问题,这个爬虫无法一直爬,爬到一定程度就爬不动了。我就重启程序,重新给种子...

就是这么简单。

Atrus 发表于 2015-9-2 10:12:20

牛奔啊 这个现在只能靠量取胜,当然有技术还是有饭吃啊
仅靠自动博什么的这类初级采集站 顶多只是饿不死

gger 发表于 2015-9-2 10:45:43

年代过去了

ads419 发表于 2015-9-2 14:00:58

3W收录,每天1IP,别问我是怎么知道的

matc 发表于 2015-9-3 08:48:54

正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulsoup高太多了。
但是,我得说这样做并无什么作用,你的玩法已经过时10多年了,连百度都糊弄不了了。
我最近在通过分词的方法来进行小段文字的替换,稍微能糊弄一下google,但是寿命也并长,何况你的随机替换....
采集站我觉得现在能玩的可能就是河马的那个思路了,可以去翻翻看看他最近的帖子。

James_Liu 发表于 2015-9-4 10:12:55

matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...

多谢分享!干货很多

阿百川 发表于 2015-9-4 17:24:03

matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...

还是可以糊弄gg的,文章随机乱序+多站链轮,虽然死得快但流量上的也很快

https://www.google.com/search?q=少时原版法庭

连续N页都是这种站
页: 1 [2] 3 4
查看完整版本: 从0开始做个聚合站