|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。$ @* c h* f9 \! x0 X; T
很简单:
e9 Z% Z3 X4 T# G8 g. c1.打开amazon.com的robots.txt文件,找到sitemap:: y& Z+ C+ R+ a& {
http://www.amazon.com/robots.txt4 n% I7 v5 _- {; [) R+ [
- # Sitemap files! H+ T5 {) ]: p
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml( B/ M+ ], N4 U$ D8 n/ k
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml) c r8 J% D5 U; B
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
- {8 B: \0 R5 K0 w - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz& i% p; A/ S( t4 o3 c M a. u
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz% |" N# A' E, a& r
- Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
# ?( O9 q' b- \/ v7 e- b - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
) ~- f* w3 y9 n( M" Y, \ - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz# P6 \+ P) D7 x* }
- Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。7 w0 q4 ?# w+ m) `( L
3.下载索引压缩文件后解压。
) w# I& F3 h, e8 Z, W4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
7 K% s* O1 b" B0 d5.下载后解压这些sitemap压缩文件。7 W) g- B, C4 w( ]9 d+ k1 X1 N2 w ^
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
* i, Q2 Z& [2 F* o6 U# N8 B7 _/ |7.没有什么了吧,剩下就由你自己发挥弄吧。
- P" G# x. w4 N4 ?
S& k. b) Y. h9 q7 @' @感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。0 P- l' P: S7 R
3 K/ K: N) L5 A# E e( t3 f
各位喜欢的赶快顶我一下吧。
- m* g" K( W+ d
, S4 Y4 s3 @; G% o |
评分
-
查看全部评分
|