|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
( T a6 R- Y7 K很简单:& t- @. J9 X3 C/ C4 B7 k
1.打开amazon.com的robots.txt文件,找到sitemap:
y( V$ B8 n1 l0 `/ ~( p1 f4 I) Whttp://www.amazon.com/robots.txt; M5 P; }' |' E! g6 u, E$ Z6 ^0 H
- # Sitemap files
* }6 w' f" a+ Z$ n% d5 b2 b) e - Sitemap: http://www.amazon.com/sitemap-manual-index.xml ?+ k6 x9 ]# @; t
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml. Q* O& f! Y% S+ ?5 }
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz% J# X9 a8 {, ?: {6 u4 {8 x5 ~
- Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz% t2 G% H6 @/ v8 j
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
9 w" D! A* C7 Y K. y" y$ q4 b$ v6 @ - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
: u) \ ]; ?2 R( w v# g+ J! A9 I - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz( ^1 \6 N" o8 p( q% ^
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
/ C/ C' S5 t& J/ x& g2 ` - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
, d |3 N% P: `; S8 |3.下载索引压缩文件后解压。( P; y( G4 o* c0 G! h
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
, q' V) ~# J* t B$ v5.下载后解压这些sitemap压缩文件。
# c! ~+ ^7 s6 _6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
1 S: H0 t! F9 R' @, J& ]7.没有什么了吧,剩下就由你自己发挥弄吧。
& s& r+ }1 {! T# R9 G" t; d- R1 ]2 n1 R5 K
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。( P: y0 | L% }- H4 u
* ~7 L3 R C, y
各位喜欢的赶快顶我一下吧。
( u/ y$ X; K0 `; @
. L9 c' m5 F! t, q# G |
评分
-
查看全部评分
|