采集-伪原创-聚合网站
本帖最后由 adouer 于 2018-6-20 13:40 编辑之前活跃在advertcn还是几年前,那个时候做过采集也跟风做过edm,大约3,4年前因工作问题不做网站也很少登录论坛了。上个月终于下定决心重新做起。
先聊一下4月份做的暂时搁置的youtube/dailymotion视频项目:
搬运了两天抖音,发现展示和播放都还不错,但是马上发现youtube对版权(抖音背景音乐涉及版权问题)限制的很严格就放弃了,试着仿别人发电视剧电影片段也放弃了,这些严格按youtube规定的话都是不合格的,人家放了并不见得我学了就没事儿。之后写了个程序自动把中文文章转视频,发了七八个,但浏览量都是个位数,目前来看,这个东西慢慢来应该是没什么问题。但听说最近不怎么审核中文频道,所以打算过段时间再看。
网站项目:
我的网站项目其实就是个低配版的大洲的采集程序。我最近一直在看网站相关的东西,我发现采集站没什么问题,也会被收录的,事实上很多大站就是采集,只不过他们不叫采集,叫整合,叫信息聚合。我的网站项目主要工作是做一个低端的Mr. 9.SM: 采集-清洗-(伪原创)-(聚合)-发布。目前已见雏形,采集清洗聚合之类的是高度自定义的,用scrapy做了一个通用采集爬虫,实践证明这个并不好,我期待的是采集高质量的内容,后期应用时转变为寻找几个目标信息源,然后写一个专门的爬虫,这个有点儿类似用火车头定义采集规则。清洗-伪原创-聚合这一套就是用各种nlp程序处理一通,然后入库等待发布。主要用的就是把长文章进行摘要然后把相似长文章摘要聚合起来,以及把文章段落化,然后生成新文章。发布的话有两个方案,一个是直接用wordpress做cms,另一个是自己用django写了一个功能异常简单的cms(还需完善,主要问题是没有好看的模板)。
实战:用这个框架做了两个网站,一个是全采某商品价格网站,整了10万个商品,按品牌搞了2万个页面,接了个django的网站+全文搜索,可以说是丑到家,google收录6000页,但是流量很低,一天50多个,感觉是废了,来的关键词特别冷门,各种型号。这个站的缺点是商品牌子都是大牌,我的站只有品牌和参数,价格,缺乏内容以及长尾。 第二个网站是定时采集国内两个行业站的新闻栏目,自动做了英德法三语翻译,然后发布到了wordpress做的行业新文站,wordpress插件多,这个cms用起来比较舒服。目前的问题是每天能发布400篇文章,感觉用不了多久怕我的低配vps扛不住了,需要做一些wordpress优化,看了一些方法,主要是cache之类的,不知道我的小内存vps能不能扛得住。效果的话,刚做了4,5天,现有内容5000篇,google才收录了200页,我感觉得等一两个星期才能看到效果。目前才来了两个海外访客。
下一步:
继续优化流程,做下一个新网站,现在有的网站让他自己跑一段时间看看效果。
下一个新网站的方向是用现用程序采集翻译一批高质量的英文技术论坛,里面纯在大量长尾关键词,做个几个月应该是有流量的,不过流量的质量可能不怎么样,也不清楚能放什么广告,淘宝客什么的都需要备案才能获得广告,我应该放不了。
不错,路子和楼主走得差不多,
现在我的youtube,开始自己手动做视频。主要自动生成的视频,质量很一般。
老实搞半年,应该可以做到K刀一个月,很有信心。
网站部分的话,可以考虑一下,做小而精的网站,而不是大而渣的站。
自动化带来的,肯定质量低下,但人工释放了,同时肯定有缺点
我自己搞的一个采集+人工编辑的站,每天更新五篇文章,做了大概一个月,最近申请到了adsense,目前大概0.5刀一天。。中文站。。准备搞个英文站。毕竟英文流量单价高。
贵在坚持把。 司马 发表于 2018-6-23 18:38
感觉这个讨论的信息量比较大。我现在也在做站,不过我没有自动采集,是手工整理的,页面现在也很少,只有不 ...
中文站么?好像搜狗和360比百度好做排名,没弄的话可以试试 sunfeng27 发表于 2018-8-29 13:31
你的youtube如何做到视频自动上传,用什么程序跑,素材哪里来。
自己写的程序。youtube提供了相关api,素材是用深度学习生成漫画配上采集的文章。 更新一下:
几天前发的帖子,刚才审核通过了,现在发帖都要人工审核了么?
今天第一个英文站更新到2300篇文章了,google爬虫每天会很稳定的来我网站溜达200页。发现了一个很有趣的现象:每天某一个时间点用site:domain可以看见收录了1400页左右,过了某个不知道时间点会变成700页左右。这个情况每天都在发生,而且两个不同时间点的收录页数都在缓慢增长,搞不懂这是什么情况。访客依旧很少,现在每天能有个3,4个。
之前说的wordpress优化的问题,看了一段时间wordpress的架构,发现针对小内存单核vps优化的话需要做的修改很多,网上搞得免费模板也是个性能瓶颈,逛了一圈发现了一个小众cms:typecho, 在本地发了10万文章感觉跑起来毫无压力,以后准备wp转typecho了。 采集还是可以来流量的 钱多多 发表于 2018-6-23 11:51
不错,路子和楼主走得差不多,
现在我的youtube,开始自己手动做视频。主要自动生成的视频,质量很一般。
...
0.5刀也比没有好。你现在日流量多少呀。我没法搞人工参与的,平时工作很忙,没有时间搞。
我搞的第一个是英文的,今天已经收录2000页了,感觉指日可待,就是没流量。 adouer 发表于 2018-6-23 12:19
0.5刀也比没有好。你现在日流量多少呀。我没法搞人工参与的,平时工作很忙,没有时间搞。
我搞的第一个是 ...
100-200IP
1500-2000PV
渣渣站,主要靠外链导入,搜索流量很少,十个那样 感觉这个讨论的信息量比较大。我现在也在做站,不过我没有自动采集,是手工整理的,页面现在也很少,只有不太到500个的样子,编入索引的很多,但是没有流量。 adouer 发表于 2018-6-23 20:04
中文站么?好像搜狗和360比百度好做排名,没弄的话可以试试
英文站,页面主要是一类产品的供应商,规格型号和价格,是手动从N多网站上整理出统一的格式字段展示的。原创的内容很少,流量几乎没有。
我的中文站博客都是自己写的东西,这个倒还可以,虽然只有200个页面,平均一天也能来100个ip左右,但是也没有什么收入。 司马 发表于 2018-6-23 20:59
英文站,页面主要是一类产品的供应商,规格型号和价格,是手动从N多网站上整理出统一的格式字段展示的。 ...
和我的其中一个采集了十几万的产品报价网类似。5000收录天天稳定30-50个ip,都是产品名和型号,我现在发现没多少人知道具体型号,也不会用很具体的型号查东西,即便查了那也都是各个大站都有介绍的响当当的产品,我这小站很难来流量。 adouer 发表于 2018-6-23 21:53
和我的其中一个采集了十几万的产品报价网类似。5000收录天天稳定30-50个ip,都是产品名和型号,我现在发 ...
我想做的是类似于一个行业站的东西,这些产品数据只是供用户查询对比用。
要想做好,还需要有比较专业的测评、相关行业知识内容等才行。不过要做好太难了。
现在看来,要认真做好一个网站,前期投入是少不了的,不管是时间、精力还是金钱。 最新进展:
英文站收录了2000+页了,但是还是没有流量,等有了流量再来汇报这个站的进展。
之前用scrapy做采集写爬虫太累,重复工作量很大,查了一圈发现了一个更简单的pyspider,支持UI界面写爬虫。接下几天的空闲时间研究一下pyspider,搭个简单的爬虫系统为采集数据做准备。目前转向了typecho,他的发布模块没有wordpress容易上手,文档支持也不太好,需要读一些代码然后改进一下。最近又发现了好几个用wordpress做的大规模采集站,有空了还是要研究一下wordpress的资源问题。 adouer 发表于 2018-6-23 23:02
最新进展:
英文站收录了2000+页了,但是还是没有流量,等有了流量再来汇报这个站的进展。
之前用scrapy做采 ...
能否分享下大规模采集站的网址,学习下 8943 发表于 2018-6-24 10:52
能否分享下大规模采集站的网址,学习下
一些奇怪的域名已经忘记了,都是全抄今日头条,用的头条模板(今日爆点)加wordpress后台。我在域名后面加了wp-admin就看见熟悉的页面。。 更新
简单的采集系统弄好了,目前在想办法弄代理ip,免费的质量太差,收费的不舍得买...
问题
采集之后的数据处理需要调用谷歌的搜索结果,结果发现这个是收费的,自己爬的话网上说很快就封ip,很棘手。