zaishanfeng
发表于 2016-1-21 14:52:42
楼主目前有多少个站流量有多少
weiai789
发表于 2016-1-21 14:53:34
白龙君 发表于 2016-1-21 14:51
除了火车头还能用啥采集啊。。。。。。。。
真要做全自动,一定要学python
还有一些,比如验证码和代理。这2个可以用钱解决。
ads419
发表于 2016-1-21 14:54:29
本帖最后由 ads419 于 2016-1-21 14:56 编辑
weiai789 发表于 2016-1-21 14:49
BeautifulSoup用来解析 html
selenium用来做自动登录,有些内容是动态js调用的,比如QQ空间这种,你用c++ ...
刚才了解了一下,这个是自动化工具,我以为是爬虫,用爬虫也有专门的JS渲染插件。
kaylin0212
发表于 2016-1-21 15:13:44
别人说有多好或不好,还不如自己去实践一遍
aabbccli
发表于 2016-1-21 15:20:10
ads419 发表于 2016-1-21 14:54
刚才了解了一下,这个是自动化工具,我以为是爬虫,用爬虫也有专门的JS渲染插件。 ...
爬虫的JS渲染插件也是用的WEBKIT内核,比如pyspider就是用的phantomjs来渲染JS,和selenium调用phantomjs渲染效果一样。不过好像pyspider是把phantomjs运行起来当作服务器调用的(可以通过ip调用),而selenium是通过子进程调用来实现的,应该是pyspider性能要好一点吧。
阿百川
发表于 2016-1-21 16:19:26
本帖最后由 阿百川 于 2016-1-21 16:23 编辑
大把大把的采集站大把大把的拿流量
jb51.net都N年了,百度、谷歌排名都很好
补几个卡饭seo:
https://www.v2ex.com/t/232328
https://www.zhihu.com/question/33195862
https://www.zhihu.com/question/35467213
http://bbs.kafan.cn/thread-1858326-1-1.html
http://koubei.baidu.com/s/kafan.cn?fr=search
tufei
发表于 2016-1-21 17:30:59
楼主有推荐的python教程吗
一米
发表于 2016-1-21 17:49:01
太专业不懂
laihappy
发表于 2016-1-21 18:38:24
你们太骚了,哈哈 我学不来
moneybooks
发表于 2016-1-21 21:56:11
都是技术流。。。
k_king
发表于 2016-1-22 00:48:25
都是技术流,看不懂,擦
weiai789
发表于 2016-1-22 12:38:20
tufei 发表于 2016-1-21 17:30
楼主有推荐的python教程吗
python核心编程
教程看一下就行了,都是那些东西,一通百通,函数,类。
会用模块就行。
上帝的假牙
发表于 2016-1-22 15:56:13
那文章我主要是说采集和搜索引擎之间的关系好吧?!
不处理采集问题,搜索引擎会被采集网站“淹”死,而机器无法很好的识别采集网站,只有人工干预才能处理好采集问题,但是人工干预成本又会降低搜索引擎公司的利润,甚至拖垮搜索引擎公司。。。对搜索引擎公司来说这是一个两难的问题。
那文章写于2013年,正是谷歌人工干预最厉害的时候。
weiai789
发表于 2016-1-22 17:01:41
上帝的假牙 发表于 2016-1-22 15:56
那文章我主要是说采集和搜索引擎之间的关系好吧?!
不处理采集问题,搜索引擎会被采集网站“淹”死,而机 ...
兄弟,没别的意思,表达一下做这行的感受而已。
若水
发表于 2016-1-22 19:22:00
weiai789 发表于 2016-1-22 17:01
兄弟,没别的意思,表达一下做这行的感受而已。
做的国内的 还是国外的? 兄弟