|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
6 U1 i" b# ~" ~很简单:
4 o0 _) l- g5 `! B! I) h5 j% a1.打开amazon.com的robots.txt文件,找到sitemap:/ o: R2 `9 E6 z- @1 x! ?
http://www.amazon.com/robots.txt
9 p3 B2 L* f: j% F- # Sitemap files
7 Z, Q" ^/ P- l8 t) t; f - Sitemap: http://www.amazon.com/sitemap-manual-index.xml2 v4 O& p" U4 t: A4 k4 I
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml4 [/ R7 E9 w- F
- Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
% Y* G/ R* [2 R, M* ~ - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz3 r, ?" d# c6 U5 R; I3 w
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
4 W; Y' f& S" ]9 d, c5 C( s- w! Q) K9 [ - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz! D2 V5 h$ k0 {; I
- Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
' e" z* h3 u/ l9 ?% g X+ I. ? - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz/ O& z6 Y& N" v& V' }, _% {
- Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
$ r; T) U2 i* ~3.下载索引压缩文件后解压。
" U- T; w/ W5 L* o4 V v5 P! F4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。/ f8 [8 y0 g' S; g" H; Z; t
5.下载后解压这些sitemap压缩文件。9 @( a3 P) ^0 ]5 W/ W
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
2 ^+ r, \$ h+ r6 |0 X8 O$ g0 _+ w7.没有什么了吧,剩下就由你自己发挥弄吧。
' O5 Z% W2 N" o6 G( @3 ]' ^5 W& ^9 f- ]( a6 h( Y
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。
' L! S8 O& }/ V8 q7 F
4 c. G7 h) b& i l各位喜欢的赶快顶我一下吧。
0 L& e2 e* z1 h% t, l+ f0 w& b) I/ K% j) H
|
评分
-
查看全部评分
|