feego 发表于 2015-11-3 05:51:27

不能采集亚马逊?

今天和一个朋友说起采集亚马逊,朋友说亚马逊不允许,我看了亚马逊联盟的说明,没有看到这一条啊
有经验的前辈怎么看?

凌尘 发表于 2015-11-3 09:26:06

可以调用吧

dersu 发表于 2015-11-3 13:45:52

什么叫不允许?
我这边专门帮人做数据采集,监控和分析。也做过要采集亚马逊商品数据的客户阿,没什么问题。当然会有一些反爬虫的障碍。你说的不能采集的具体是指什么?

feego 发表于 2015-11-4 01:54:38

dersu 发表于 2015-11-3 13:45
什么叫不允许?
我这边专门帮人做数据采集,监控和分析。也做过要采集亚马逊商品数据的客户阿,没什么问题 ...

我的意思是采集亚马逊做垃圾站,朋友说会被k
前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果出现那个robot check就打码
有别的思路吗?

阿百川 发表于 2015-11-4 10:31:56

feego 发表于 2015-11-4 01:54
我的意思是采集亚马逊做垃圾站,朋友说会被k
前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ...

amazon有api,不用自己去采集

李小冲 发表于 2015-11-4 10:36:49

把amazon的sitemap下载下来,然后通过里面的product url进行采集相关的数据

dersu 发表于 2015-11-4 16:52:59

feego 发表于 2015-11-4 01:54
我的意思是采集亚马逊做垃圾站,朋友说会被k
前辈怎么破亚马逊的反爬虫的?我现在只是定时自动刷新,如果 ...

量不大的话,楼下 @阿百川 兄弟说的是正解
否则你肯定会碰上RobotCheck,或者0或空字段
但API的限制我没记错的话是1秒,大数据级的话基本是会把自己憋屈死的

我这边因为同时为客户跑非常多的爬虫,常规有一个大概2万的匿名代理池,一般有客户要爬东西,直接先上代理池大并发,如果不行再仔细研究网站和其他方法,如果每一个网站都仔细研究他们反爬技术的话,会累死的,呵呵

@李小冲 说的方法如果你没试过也一定要试一下,能减少很大工作量

通常来说,爬一个网站之前,先看这三点:有没有API, 有没有Mobile站,有没有sitemap,吃过无数次亏的血泪经验,哈

feego 发表于 2015-11-5 03:39:11

阿百川 发表于 2015-11-4 10:31
amazon有api,不用自己去采集

亚马逊本身的api限制太多,对我来说基本无用

feego 发表于 2015-11-5 03:42:42

dersu 发表于 2015-11-4 16:52
量不大的话,楼下 @阿百川 兄弟说的是正解
否则你肯定会碰上RobotCheck,或者0或空字段
但API的限制我没 ...

多谢~~~~~~~~~~~~~~~~
页: [1]
查看完整版本: 不能采集亚马逊?