|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
! o4 b* G) X. y5 p% d# N, S很简单:
* u+ Y/ ~: E% v* ~& L) m1.打开amazon.com的robots.txt文件,找到sitemap:
! ~, w. J3 V% V7 c; l5 Dhttp://www.amazon.com/robots.txt5 ^7 ]3 P j% |/ C4 C/ o
- # Sitemap files$ c" D+ d, D4 h4 a
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
7 d0 Q' g8 p8 }6 s/ ]) K - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
; H& U6 p* }& W9 Q# u - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
1 p% W5 {1 w4 v1 e0 x# z - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
4 o& g6 {! ^+ K# G! O, M a9 p - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
; y6 U: T; a$ z1 J8 w+ L - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz8 X7 ?# G) [' q6 i6 L# R p! H& d
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz u; H. X+ c: F% q% f0 l
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
8 M$ q) [ c' D7 n; g* X - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
- E) M, n/ x4 U5 R3.下载索引压缩文件后解压。
) U( ]1 U# [# c! e, w4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
2 g) G) t6 y3 a. ?1 h5.下载后解压这些sitemap压缩文件。8 Q# s8 M( s0 r) l# j1 c
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
( p& ]; [% {. l& _, G7.没有什么了吧,剩下就由你自己发挥弄吧。
/ G6 a( q: S- m- Q' n( @+ ], n, |
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
& {1 a* Y7 M- B" d3 ^8 h
2 R2 o+ L, p0 ?- E各位喜欢的赶快顶我一下吧。
/ E; ?6 Q1 c, R8 C/ m0 p2 W% A- f% k. I& v: i: R
|
评分
-
查看全部评分
|