常见问题:
最近一段时间发现百度蜘蛛大量抓取网站用于记录用户行为的链接,此链接属于ajax异步调用的链接,在页面html源码中是不存在的,链接形式如下:/sys/visit.htm?ref=&T=gzmue1a3&ajax=true&jsoncallback=jsonp1331395306028&_=1331395306492&format=json
此链接页面html响应信息结果为(其他链接响应结果类似):
jsonp1331862444998({"result":"success","client":"c2lkPTAwMDAwMDAwNTE4MCZ2ZGF0ZT0yMDEyMDMxNiZ2aWQ9MTMzMTcxMjM2NDExODIyODg="})
我们很早已在robots.txt文件使用了
Disallow: /sys/visit.htm
Disallow: /sys/visit.htm?ref=*
来屏蔽爬虫对该链接的抓取,但apache日志中任然能看到蜘蛛大量(每日三千左右)的抓取。
请问,该如何减少百度蜘蛛对这类没有太多意义内容的抓取,以减少网站服务器负担,谢谢!
官方回复:
Baiduspider肯定会遵守robots协议 建议按照http://www.baidu.com/search/spider.htm 提供的方法检查一下是否冒充。 http://wenku.baidu.com/view/90493a24192e45361066f570.html?st=1并用robots工具检查一下robots的书写是否正确
|