|
发表于 2015-7-31 17:09:37
|
显示全部楼层
你要的只是产品名称和产品URL吧。3 Y( H7 ]& t" s7 M/ o. T8 [
很简单: {- R$ t5 N* x# ?+ q/ J
1.打开amazon.com的robots.txt文件,找到sitemap:
! E0 c- S' Q1 o7 \http://www.amazon.com/robots.txt
3 ]& K. o, A( Z; a2 l- o8 T- # Sitemap files
. Q7 x# t6 G- A/ N! I/ ?8 j5 ` - Sitemap: http://www.amazon.com/sitemap-manual-index.xml% Y0 t R5 v% u- W s; k1 w2 e; B
- Sitemap: http://www.amazon.com/sitemap_vendor_videos_us.xml
7 n8 L$ W& x: U* ]) C5 X' F - Sitemap: http://www.amazon.com/sitemaps.4acb100d6c5a79c.SitemapIndex_0.xml.gz
, j% i7 c) i4 k9 C$ c - Sitemap: http://www.amazon.com/sitemaps.f3053414d236e84.SitemapIndex_0.xml.gz4 d) N" }' }) D. E4 V
- Sitemap: http://www.amazon.com/sitemaps.1946f6b8171de60.SitemapIndex_0.xml.gz
! c" L; X' ]# w! R8 S - Sitemap: http://www.amazon.com/sitemaps.bbb7d657c7e29fa.SitemapIndex_0.xml.gz
1 u6 K5 A. x7 ~1 I: h - Sitemap: http://www.amazon.com/sitemaps.11aafed315ee654.SitemapIndex_0.xml.gz0 \* t* i& O- [2 |
- Sitemap: http://www.amazon.com/sitemaps.c21f969b5f03d33.SitemapIndex_0.xml.gz
. ~8 j9 F5 q! a% T5 ?6 h - Sitemap: http://www.amazon.com/sitemaps.1470994145d5519.SitemapIndex_0.xml.gz
复制代码 2.找到相对应的产品的sitemap的索引压缩文件。
* i( q* {* H& |7 U9 L6 w3.下载索引压缩文件后解压。
* W7 T" z/ C+ _7 {. |4.将解压后的索引文件只的sitemap的url取出来,放到迅雷里面将上百个对应的产品sitemap的压缩文件下载下来。: b! B) p' O' b
5.下载后解压这些sitemap压缩文件。7 o6 t2 @. Q& `( p# `" e7 |3 N
6.写程序读取解压后的xml文件,取出里面的<loc>http://www.amazon.com/你要的产品名称等 </loc>值存到数据库里就可以了。
/ ]: ], _2 a9 b1 D$ o7.没有什么了吧,剩下就由你自己发挥弄吧。
8 M" e% g( H- C' Q4 n# i
1 b$ ~* Q( D) a$ N( g9 X2 G感觉利用sitemap的方法能快一些,我没有用过api,听说api有调用限制的。4 D1 E9 f0 q: C7 F- Q4 U) C' H! y
; l! T* j+ c- Y1 _% U+ a1 z# A
各位喜欢的赶快顶我一下吧。
2 _! _+ r, g0 ^8 V3 K- ~
. n7 V6 F3 k& Z0 _ |
评分
-
查看全部评分
|