当前位置:重庆网站优化 > SEO经验 >

如何应对蜘蛛页面抓取异常?

  搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。比如我们常见的,有时候打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。

应对蜘蛛页面抓取异常

  有时候,会返回503,503返回码代表网站临时无法访问,可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,∪RL仍然被当作正常URL处理,如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除,这就要求我们必须维护网站的稳定性尽量避免临时关闭的情况发生。返回码403是禁止访问状态,一般来说,如同503—样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。

  在返回码中,有一类需要格外注意,就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新的URL,就必须使用返回码301进行处理,这样能把权重等并带过去,避免网站的流量损失返回码301的优化写法如下。

  (1)创建个htaccess.txt文件。

  (2)在 htaccess tx里写好返回码301的跳转信息。假设旧的URL为abc.com,需要重定向到www.abc.com,需在文件里写如下信息。

  (3)将 htaccess. txt上传到FTP,然后将 htaccess. txt修改为.htaccess需要提醒的是目前 htaccess只适用于 Linux系统,并需要虚拟主机支持,因此,在考虑 htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。实际上,在重定向的处理上存在多种方式,简单来说,重定向可以分为h30重定向、 meta refresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都确认支持 Canonica标签,可以通过制定一个权威页面的方式,引导蜘蛛只索引一个权威页面,从实际效果上来说,也是一种间接的重定向。在实际抓取过程中,蜘蛛会对各种重定向效果进行识

  。重定向的方法有多种,但是从SEO角度来说,如果是永久跳转的页面,尽量采用返回码301的跳转方式。另外,从时间结果来看,百度对 Canonica的支持并不如谷歌好,采用 Canonica未必能得到如期效果。有些网站通过不同的路径进入同一页面,可能会出现多个URL的情况,当面对这种情况时,可能需要一些处理技巧,关于Canonical的使用技术可参见本书关于 Canonical的专门讲解外链等因素对搜索的排名是有影响的,那么在抓取环节是否也有影响呢?百度在它的抓取政策上有优先级的说明,即执行包括“深度优先遍历策略、宽度优先遍历策略、PR优先策略、反链策略、社会化分享指导策略等”。同时,这也说明每个策略各有优劣,在实际情况中往往是多种策略结合使用才能达到最优的抓取效果。从这段官方说明里面可以看到PR优先策略、反链策略、社会化分享等字眼,我们可以认为,百度在实际抓取的时候,其实都考虑了这些因素,只是权重可能有所不同,因此,尽量提高网页PR,增加更高质量的外链,进行高质量的社会化分享,对网站的SEO工作是有积极意义的。

  另外,针对互联网存在的大量“盗版”“采集”的网页情况,在抓取的过程中,蜘蛛会通过技术判断页面是否已经被抓取过,并对URL不同但是实际内容相同的页面的URL进行归一化处理,即视作一个URL。也就是告诉SEO人员,不要通过大量创建页面的方式来获得更多的搜索资源,如果页面很多,但是每个页面的内容重复性很高或者仅是URL中包含无效参数来实现多个页面,搜索引擎仍然把这些URL当作一个URL处理,即网站页面不是越多越好,通过功利的方式拼凑网页,大量部署长尾,但是页面质量堪忧,效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面,可能会影响到整站的SEo效果。

文章来源:重庆SEO,家专业从事重庆网站优化,重庆建网站,百度关键词排名的公司,有相关需要请联系QQ:470891619>