zaishanfeng 发表于 2016-1-21 14:52:42

楼主目前有多少个站流量有多少

weiai789 发表于 2016-1-21 14:53:34

白龙君 发表于 2016-1-21 14:51
除了火车头还能用啥采集啊。。。。。。。。

真要做全自动,一定要学python

还有一些,比如验证码和代理。这2个可以用钱解决。

ads419 发表于 2016-1-21 14:54:29

本帖最后由 ads419 于 2016-1-21 14:56 编辑

weiai789 发表于 2016-1-21 14:49
BeautifulSoup用来解析 html

selenium用来做自动登录,有些内容是动态js调用的,比如QQ空间这种,你用c++ ...
刚才了解了一下,这个是自动化工具,我以为是爬虫,用爬虫也有专门的JS渲染插件。

kaylin0212 发表于 2016-1-21 15:13:44

别人说有多好或不好,还不如自己去实践一遍

aabbccli 发表于 2016-1-21 15:20:10

ads419 发表于 2016-1-21 14:54
刚才了解了一下,这个是自动化工具,我以为是爬虫,用爬虫也有专门的JS渲染插件。 ...

爬虫的JS渲染插件也是用的WEBKIT内核,比如pyspider就是用的phantomjs来渲染JS,和selenium调用phantomjs渲染效果一样。不过好像pyspider是把phantomjs运行起来当作服务器调用的(可以通过ip调用),而selenium是通过子进程调用来实现的,应该是pyspider性能要好一点吧。

阿百川 发表于 2016-1-21 16:19:26

本帖最后由 阿百川 于 2016-1-21 16:23 编辑

大把大把的采集站大把大把的拿流量

jb51.net都N年了,百度、谷歌排名都很好

补几个卡饭seo:
https://www.v2ex.com/t/232328
https://www.zhihu.com/question/33195862
https://www.zhihu.com/question/35467213
http://bbs.kafan.cn/thread-1858326-1-1.html
http://koubei.baidu.com/s/kafan.cn?fr=search

tufei 发表于 2016-1-21 17:30:59

楼主有推荐的python教程吗

一米 发表于 2016-1-21 17:49:01

太专业不懂

laihappy 发表于 2016-1-21 18:38:24

你们太骚了,哈哈 我学不来

moneybooks 发表于 2016-1-21 21:56:11

都是技术流。。。

k_king 发表于 2016-1-22 00:48:25

都是技术流,看不懂,擦

weiai789 发表于 2016-1-22 12:38:20

tufei 发表于 2016-1-21 17:30
楼主有推荐的python教程吗

python核心编程
教程看一下就行了,都是那些东西,一通百通,函数,类。

会用模块就行。

上帝的假牙 发表于 2016-1-22 15:56:13

那文章我主要是说采集和搜索引擎之间的关系好吧?!
不处理采集问题,搜索引擎会被采集网站“淹”死,而机器无法很好的识别采集网站,只有人工干预才能处理好采集问题,但是人工干预成本又会降低搜索引擎公司的利润,甚至拖垮搜索引擎公司。。。对搜索引擎公司来说这是一个两难的问题。

那文章写于2013年,正是谷歌人工干预最厉害的时候。

weiai789 发表于 2016-1-22 17:01:41

上帝的假牙 发表于 2016-1-22 15:56
那文章我主要是说采集和搜索引擎之间的关系好吧?!
不处理采集问题,搜索引擎会被采集网站“淹”死,而机 ...

兄弟,没别的意思,表达一下做这行的感受而已。

若水 发表于 2016-1-22 19:22:00

weiai789 发表于 2016-1-22 17:01
兄弟,没别的意思,表达一下做这行的感受而已。

做的国内的 还是国外的? 兄弟
页: 1 [2] 3
查看完整版本: 楼下哥们儿说"采集必死",我只想说“呵呵”