当前位置:重庆网站优化 > SEO经验 >

了解搜索引擎抓取机制解决网站收录问题

  收录是指网页被搜索引擎抓取到,然后放到搜索引擎的库里,等到人们搜索相关词汇的时候,可以在搜索结果页展示列表看到已经收录的页面及页面信息。我们所说的“网页被收录”即能在搜索结果页看到相关的页面。反之,“网页没有被收录”问题就复杂一些,因为在搜索结果页没有看到对应的页面,并不意味着网页就没在搜索引擎的库里,或者说就没有被收录,有可能是网页针对当前的搜索词汇排名不好,在760个记录之外。

了解搜索引擎抓取机制解决网站收录问题

  因此没有得到展示收录涉及网页被搜索引擎蜘蛛抓取,然后被编入搜索引擎的索引库,并在前端被用户搜索到这一系列的过程。对SEO人员或者希望对自己网站进行优化的非专业SE○人员来说,了解页面是如何被搜索引擎收录的,了解搜索引擎的收录原理,都是极有好处的,能帮助你在进行网站sEO的时候尽量遵循收录的规律,提高网站被收录的比例。

  1、搜索引擎蜘蛛的工作原理

  收录的第一个环节就是抓取。抓取的过程是搜索引擎应用程序去抓取网站的网页,这里负责搜索引擎抓取网页职能的程序俗称蜘蛛( Spider),蜘蛛是一个形象的说法,因为互联网就是一张巨大的蜘蛛网,搜索引擎的程序通过网络不断地进行爬行和探索。每个互联网公司都有自己的抓取蜘蛛,比如百度蜘蛛( Baiduspider)、谷歌蜘蛛、搜狗蜘蛛等。

  蜘蛛通过网站提交的 Sitemap(网页地图)或者在互联网其他地方留下的页面URL信息,爬行到网站对应页面,然后沿着网站页面其他链接一层层往下爬行,发现更多的页面。蜘蛛抓取网页是收录页面工作的上游,通过蜘蛛对网页的抓取发现更多页面,同时知道哪些页面已经有了更新,从而实现对互联网页面的抓取和持续更新。

  关于蜘蛛抓取系统的工作原理,可以参考百度蜘蛛抓取的说明。简而言之,蜘蛛抓取系统包括链接存储系统、链接选取系统、DNs解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。 Baiduspider通过这种系统的通力合作完成对互联网页面的抓取工作。

  2、应对蜘蛛机取基本策略

  在蜘蛛实际抓取网页的过程中,因为网页内容的复杂性(文本、Fash、视频等)和技术实现的多样性(纯静态、动态加载等),为了更高效地利用蛛蛛资源,搜索引擎公司会置顶不同的抓取策略,作为SEO人员,可以参考搜素引擎公司对抓取策略的描述,采用最大化的SEO方法。

  作为国内最大的搜索引擎公司,百度在它的官方文档中是如下这样描述抓取策略的。互联网资源具有庇大的数量级,这就要求抓取系统尽可能高效地利用带宽,在有限的硬件和带宽资源下尽可能多地抓取到有价值的资源。这就造成了另—个问题,耗费被抓取网站的带宽造成访问压力如果程度过大,将直接影响被抓取网站的正常用户访问行为。

  因此在抓取过程中要进行一定的抓取压力控制,实现既不影响网站的正常用户访问,又能尽量多地抓取到有价值资源的目标。通常情况下,采用的最基本的方法是基于|P的压力控制。这是因为如果基于域名,可能存在一个域名对多个iP(很多大网站)或多个域名对应同一个P(小网站共享iP)的问题。实际工作中,往往根据iP及域名的多种条件进行压力控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时 Baiduspider将优先按照站长的要求进行抓取压力控制.

  对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如,夜深人静的时候抓取的可能就会快一些。也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断地调整。对于不同站点,也需要不同的抓取速度。

  上面的描述很简洁,但是从这个描述里面,我们可以得到启发蜘蛛抓取页面是有压力控制的,对于特别大型的网站来说,不可能指望蜘蛛爬行到个网站后,会一次性抓取到所有的网站,因此,作为SEO人员来说,尽量减少蜘蛛的压力,对网站的网页收录是有好处的。一般来说,减轻蜘蛛压力有以下两种方法。方法—:采用№ follow(反垃圾链接的标签)的策略,将蜘蛛引导到最有价值的页面。 nofollow标签用来告诉蜘蛛,如果遇到带着此他更加有用的页面。

  方法二:在 Sitemap中定义不同页面的权重和更新频率,就是在网站的 Sitemap文件中,定义好每个链接的权重和更新的频率,这样蜘蛛在爬行到这些链接和页面的时候,会识别哪些页面比较重要,可以重点抓取,哪些页面更新比较频繁,需要蜘蛛分配更多的注意力。

文章来源:重庆SEO,家专业从事重庆网站优化,重庆建网站,百度关键词排名的公司,有相关需要请联系QQ:470891619>