了解 Google 如何发现和抓取网页并将其作为结果提供
来自GOOGLE官方原版的一篇文章抓取
抓取是指 Googlebot 找出要添加到 Google 索引中的新网页和更新的网页的过程。
我们使用许多计算机来获取(或“抓取”)网站上的大量网页。执行获取任务的程序叫做 Googlebot(也被称为漫游器或信息采集软件)。Googlebot 使用算法来进行抓取:计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。
Google 的抓取过程是根据网页网址的列表进行的,该列表是在之前进行的抓取过程中形成的,且随着网站管理员所提供的站点地图数据不断进行扩充。Googlebot 在访问每个网站时,会检测每个网页上的链接,并将这些链接添加到它要抓取的网页列表中。新建立的网站、对现有网站所进行的更改以及无效链接都会被记录下来,并用于更新 Google 索引。
Google 不允许以收取费用的方式来提高网站抓取频率。我们会对搜索业务和以盈利为目的的 AdWords 服务加以区分。
编入索引
Googlebot 会处理所抓取的每个网页,以便将其找到的所有字词和这些字词在每个网页上的位置都汇编到包含大量索引的列表中。此外,我们还会处理关键内容标记和属性中的信息,例如 TITLE 标记或 ALT 属性。Googlebot 可处理许多类型的内容,但并非全部类型的内容。例如,我们无法处理某些 Rich Media 文件或动态网页的内容。
提供结果
用户输入查询时,我们的计算机会搜索索引以查找匹配的网页,并返回我们认为与用户搜索最为相关的结果。相关性是由 200 多个因素决定的,其中一个就是特定网页的 PageRank。PageRank 是根据其他网页中的导入链接对某个网页的重要性所进行的衡量。简单来说,其他网站中指向您网站网页的各个链接构成了您网站的 PageRank。并非所有链接都具有同样的价值:Google 致力于通过指明垃圾链接和其他会对搜索结果造成负面影响的行为来不断改善用户体验。根据您所提供的内容的质量所指定的链接是最好的链接。
要让您的网站在搜索结果页中获得较好的排名,您一定要确保 Google 能够正确地抓取您的网站并将其编入索引。我们的网站站长指南列出了一些最佳做法,可帮助您避免常见问题并提高网站的排名。
Google 的您是不是要找和 Google 自动填充 功能旨在通过显示相关的搜索字词、常见的拼写错误和热门查询来帮助用户节省时间。与我们的 google.com 搜索结果相似,这些功能所使用的关键字会由我们的网络抓取工具和搜索算法自动生成。只有在我们认为预测查询可以节省用户时间的情况下,才会显示这些内容。如果某个网站因某一关键字而获得较高的排名,这是因为,我们已通过算法确定了其内容对用户的查询更具相关性。
学习了
页:
[1]