|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。
- U& m3 i/ h' P: E* N7 J: E' r很简单:
2 k0 X6 i& l, e1.打开amazon.com的robots.txt文件,找到sitemap:8 X( [1 ~* n# i( f. ^
http://www.amazon.com/robots.txt
$ _+ b% `3 U: ^+ ^+ J- # Sitemap files* _. z& D. S! O& D7 v M8 c9 m7 u
- Sitemap: http://www.amazon.com/sitemap-manual-index.xml& v: b; }& j; E; ~2 j- N% a- H' m
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
) e0 |" r: v A' G! ~ - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
: O! `: o- D& x, T- Y' A5 `' @& v - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz
! N6 p! B) {$ t' N) |! f: [' g - Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
6 Z c/ D% Y/ u/ Q4 C3 w- k1 l - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
, t b2 J. t" f3 g' }* e \ - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz
1 u* I1 F; T. C - Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
' U" q# Q2 i/ i( n) B - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
0 T! p4 {: U! V7 M6 F- n2 [& z3.下载索引压缩文件后解压。
8 o. p% Z6 U' N6 _ x4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。
2 C: c1 W3 t. {, q5.下载后解压这些sitemap压缩文件。
- o" E# y% v8 O- b8 S) d6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。! D' ^: C d& |! z! m
7.没有什么了吧,剩下就由你自己发挥弄吧。
d2 E- k7 Y0 `, Q* i, A0 N6 k( t1 J, G2 r+ f# ]
感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。- v1 q8 a! F8 F: c; [
- j' O" R- a" ~各位喜欢的赶快顶我一下吧。
X5 e- I9 o) K0 ]+ U! S- y* p8 Z; V7 @
|
评分
-
查看全部评分
|