我有三个站点在同一个服务器上,有两个ip,其中一个站点加了SSL证书,也就是https
' M+ B# i2 M) L% }
3 U7 g; a, q' j; m人工访问的时候,一切都是正常的。
- \1 B1 Y6 c$ H' U) @& Y8 I; ]6 y/ g0 S
! n k, J2 \: X, m) K0 y在google和bing的搜索结果中,其他两个没有加ssl证书的网站搜索结果里面,很多加了ssl的内容,但是域名还是他们自己的。
/ u& d* |3 F! {$ L+ @, @
! r+ Y9 p8 W" k& c$ Z: C9 M7 _比如站点A是加了SSL的,B,C没有加。在site:B.com和site:C.com的结果中,很多内容是来自A的,但是域名是B和C自己的,而且前面加了https. K M2 B" I$ P
# r" F% L5 D3 |0 s6 f$ I
这个问题困扰我很久了,一切不知道怎么解决。问了digicert,他们否认是证书引起的。, |) R) q+ @" T5 `8 L; ?5 O
$ X! F3 [2 l4 ~2 l一直没搞懂,为什么爬虫在爬B和C时,要去抓取A的内容。& L# ~1 G% X, q1 x* l" l2 W& X8 V
# h9 ?) {/ U7 D1 X: d! \
大神给的建议吧,多谢$ U3 ~& [4 Y3 Y: B
) g+ i- M: I/ E' X1 K
% [% \6 k5 g0 h1 h4 o |