|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。 i/ F; l( n- T0 h& N) g) ?
很简单:
& z; c' W+ |3 ?. s% n" t6 e1.打开amazon.com的robots.txt文件,找到sitemap:. I& K& B" u7 h
http://www.amazon.com/robots.txt
0 K/ a2 Z8 i. g5 g7 b" j- # Sitemap files b1 Z/ D0 r! n- l2 t
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml
j( t: D, m& T5 f9 _( p, M - Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
4 ~) p2 ~% j- O8 p% K' t - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
$ v$ g" q; k2 S8 w8 b - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz: j# T, U% m$ K8 U0 {
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
9 U$ ?# \6 {$ B i2 C- { - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
* y; u# L! F/ S3 j" a. v - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
% ^" D+ g+ l6 l - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz8 @+ d, k) P& |) } f* v0 J
- Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
2 I4 l5 R: j1 ~! l3.下载索引压缩文件后解压。. S- Q8 `5 M$ Z {0 N! |( M' ?& s) c
4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。3 d/ v! i A# ]. B" \' |5 S; S
5.下载后解压这些sitemap压缩文件。
* _7 B1 L6 G p; q6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。) o# n; ^! J9 i; t6 w" y% o
7.没有什么了吧,剩下就由你自己发挥弄吧。
) t+ l8 E$ {: G, s9 U# U+ k/ M/ s1 Q8 J/ S w3 f# }- A
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
$ h9 T1 E; h/ [, Y3 \( R
0 e. A# ~ ]1 K% S各位喜欢的赶快顶我一下吧。1 ~1 p: b& ?& A. o) d% f
& o* f' ^7 c: e3 H: x2 @5 p |
评分
-
查看全部评分
|