wqz
发表于 2015-9-1 20:57:09
James_Liu 发表于 2015-9-1 15:10
一起交流啊! 这个过程估计会比较慢才能看到效果,我计划做个英文站,再做个中文站试试。 ...
一个是收录慢,另外一个是收录了没排名。
leeker
发表于 2015-9-1 21:19:17
空格无敌 发表于 2015-9-1 18:14
这种站靠SEO是很难的,试试社交流量,社交流量上来了也很好的。
他把语句随机打乱了再社交引流?
hudba
发表于 2015-9-1 22:18:56
很厉害,期待更新呀
我就是新手
发表于 2015-9-1 22:47:27
你可不可以不要这么牛逼
seanhere
发表于 2015-9-1 23:20:23
本帖最后由 seanhere 于 2015-9-1 23:22 编辑
Lebron.Meng 发表于 2015-9-1 20:56
楼上正解,走流量SEO可能不太合适
这种垃圾站只能靠SEO流量吧,不过只有上足够大的文章量做基数之后,才会有一定比例的长尾流量,一两个站内容太少,这样测试周期会非常长还不见效。
社交没有人看的,内容不可读,更别提传播了
seanhere
发表于 2015-9-1 23:30:19
知道几个做垃圾站的大牛,应该有前途的,做好了可以跟正规站平分秋色, 再说大洲的镜像SM应该也属于这一类吧。
小远
发表于 2015-9-2 00:55:21
我的站有十四万数据,只收录了两万多,都一个月了
潇洒哥er
发表于 2015-9-2 09:45:58
比较关注PYTHON的采集技术。
James_Liu
发表于 2015-9-2 09:49:27
潇洒哥er 发表于 2015-9-2 09:45
比较关注PYTHON的采集技术。
这个没有特别难的,我这里只采集正文,而且文章也不要求可读性。所有就用了BeautifulSoup过滤p标签。
我设定了一组种子网站,爬虫沿着种子站爬出去,只保存正文,判断正文字符数大于500就保留,否则就舍弃。
受制于URL存储和排重问题,这个爬虫无法一直爬,爬到一定程度就爬不动了。我就重启程序,重新给种子...
就是这么简单。
Atrus
发表于 2015-9-2 10:12:20
牛奔啊 这个现在只能靠量取胜,当然有技术还是有饭吃啊
仅靠自动博什么的这类初级采集站 顶多只是饿不死
gger
发表于 2015-9-2 10:45:43
年代过去了
ads419
发表于 2015-9-2 14:00:58
3W收录,每天1IP,别问我是怎么知道的
matc
发表于 2015-9-3 08:48:54
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulsoup高太多了。
但是,我得说这样做并无什么作用,你的玩法已经过时10多年了,连百度都糊弄不了了。
我最近在通过分词的方法来进行小段文字的替换,稍微能糊弄一下google,但是寿命也并长,何况你的随机替换....
采集站我觉得现在能玩的可能就是河马的那个思路了,可以去翻翻看看他最近的帖子。
James_Liu
发表于 2015-9-4 10:12:55
matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...
多谢分享!干货很多
阿百川
发表于 2015-9-4 17:24:03
matc 发表于 2015-9-3 08:48
正文采集你用beautifulsoup?效率太低了吧,我推荐你用一个python-readability库,用来做采集比beautifulso ...
还是可以糊弄gg的,文章随机乱序+多站链轮,虽然死得快但流量上的也很快
https://www.google.com/search?q=少时原版法庭
连续N页都是这种站