请选择 进入手机版 | 继续访问电脑版
查看: 13569|回复: 3

站点抓取异常工具上线公告

[复制链接]
发表于 2012-5-14 13:18:00 | 显示全部楼层 |阅读模式
各位网站管理员: 大家好!

百度站长平台站点抓取异常工具全新上线,新上线的抓取异常工具面向全部网站开放。网站管理员可登录百度站长平台:http://zhanzhang.baidu.com/,直接使用,了解百度抓取过程中的异常情况,以便站长随时发现网站存在的问题。

为什么要使用站点抓取异常工具:
1.对于互联网中可正常访问的网页,百度spider抓取的应该与普通用户访问的内容一致。除此之外,还可能会出现百度无法抓取页面内容,或抓取内容与用户访问内容不一致的情况,这就是抓取错误。对于大量网页无法正常抓取的网站,搜索引擎通常会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都可能会受到一定程度的负面影响。
2.使用站点抓取异常工具,可以及时发现网站存在的异常情况,可以有针对性地快速处理问题,及时修复由于异常情况而导致的用户体验损失。

怎样使用站点抓取异常工具:

第一步,注册并登录百度站长平台(http://zhanzhang.baidu.com/
第二步,提交网站并验证归属,具体验证网站归属方法可见帮助文档
http://www.baidu.com/search/sitemap_help.html
第三步,选择左侧“站点管理”

第四步,在已认证归属的站点列表中选择需要查询的站点。


第五步,选择左侧“抓取异常查询”,得到抓取异常查询工具界面如下


抓取异常查询工具功能介绍:
1.工具可展现站点中已发现的抓取异常页面(抽样统计),并显示对应的异常类型。每种异常类型最多可展现10条链接,多于10条的不会在界面中体现。
2.所有抓取异常的链接列表可以通过下载的方式获取,支持按照异常类型下载指定的异常链接。
3.目前支持识别的抓取异常种类有五种:404页面、IP封禁、UA封禁、异常重定向以及其他异常,具体如下:

3.1 404页面:
代表协议死链,用户已无法访问该页面内容,建议通过百度站长平台--死链工具提交死链的方式进行处理,以便搜索引擎更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。

3.2 IP禁封:
限制网络的出口IP地址,禁止该IP段的使用者进行内容访问,即为IP禁封。请检查系统服务器是否设置了针对百度spider的IP禁封规则。

3.3 UA禁封:
UA即为用户代理(User-Agent),服务器通过UA识别访问者的身份,当网站针对指定UA的访问返回异常页面(如403,500)或跳转到其他页面的情况,即为UA禁封。请检查系统服务器是否设置了针对百度spider的UA禁封规则。

3.4 异常重定向:
将网络请求重新指向其他位置即为重定向。异常重定向指的是以下几种情况
1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉
2)重定向到出错或者无效页面
3)重定向的跳转超过3次,也为异常
注意:对于长时间跳转到其他域名的情况,如网站更换域名,百度建议使用301跳转协议进行设置。

3.5、其他异常:
1)针对百度refer的异常:网页针对来自百度的refer返回不同于正常内容的行为。
2)针对百度ua的异常:网页对百度UA返回不同于页面原内容的行为。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。
4)压力过大引起的偶然禁封:百度会根据站点的规模,访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回503(其含义是“Service Unavailable”),这样百度spider会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。

对于异常抓取的页面,建议站长及时检查服务器的工作状态和参数设置,以避免由此带来的流量损失。
发表于 2016-6-1 13:26:14 | 显示全部楼层
来留一个脚印吧。
回复 支持 反对

使用道具 举报

发表于 2016-6-29 20:09:44 | 显示全部楼层
谢谢管理 辛苦啦 改天用用
回复 支持 反对

使用道具 举报

发表于 2016-8-1 17:19:53 | 显示全部楼层
个人感觉这个没有台大用途
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2024-3-19 13:00 , Processed in 0.407529 second(s), 20 queries .

返回顶部