请选择 进入手机版 | 继续访问电脑版
查看: 19292|回复: 10

[常见问题汇总] 关于蜘蛛抓取大量ajax异步调用页面链接的问题

[复制链接]
发表于 2012-6-27 10:34:14 | 显示全部楼层 |阅读模式
常见问题:

最近一段时间发现百度蜘蛛大量抓取网站用于记录用户行为的链接,此链接属于ajax异步调用的链接,在页面html源码中是不存在的,链接形式如下:
/sys/visit.htm?ref=&T=gzmue1a3&ajax=true&jsoncallback=jsonp1331395306028&_=1331395306492&format=json

此链接页面html响应信息结果为(其他链接响应结果类似):
jsonp1331862444998({"result":"success","client":"c2lkPTAwMDAwMDAwNTE4MCZ2ZGF0ZT0yMDEyMDMxNiZ2aWQ9MTMzMTcxMjM2NDExODIyODg="})

我们很早已在robots.txt文件使用了
Disallow: /sys/visit.htm
Disallow: /sys/visit.htm?ref=*
来屏蔽爬虫对该链接的抓取,但apache日志中任然能看到蜘蛛大量(每日三千左右)的抓取。
请问,该如何减少百度蜘蛛对这类没有太多意义内容的抓取,以减少网站服务器负担,谢谢!

官方回复:

Baiduspider肯定会遵守robots协议
建议按照http://www.baidu.com/search/spider.htm 提供的方法检查一下是否冒充。
http://wenku.baidu.com/view/90493a24192e45361066f570.html?st=1并用robots工具检查一下robots的书写是否正确

发表于 2012-6-27 11:54:01 | 显示全部楼层
这个ROBOTS。txt  写法很重要啊!:)
回复 支持 反对

使用道具 举报

发表于 2012-6-29 10:40:33 | 显示全部楼层
百度遵守robots协议,大家是毋庸置疑的,他不是e淘
回复 支持 反对

使用道具 举报

发表于 2012-8-3 09:11:41 | 显示全部楼层
百度遵守robots协议
回复 支持 反对

使用道具 举报

发表于 2012-8-3 14:44:48 | 显示全部楼层
遵守robots协议
回复 支持 反对

使用道具 举报

发表于 2013-4-3 13:13:50 | 显示全部楼层
本帖最后由 wangbbs2009 于 2013-4-3 13:15 编辑

我的站也出现了百度大量抓取ajax异步加载的页面(现象同楼主),每天大概有1W左右的抓取量.robots文件都屏蔽2个多月了.
请问应该如何快速解决.谢谢
回复 支持 反对

使用道具 举报

发表于 2013-4-8 16:03:50 | 显示全部楼层
robots.txt里面禁止,如果还在抓,再具体分析
回复 支持 反对

使用道具 举报

发表于 2013-4-26 14:45:18 | 显示全部楼层
靠 还是职业的?
回复 支持 反对

使用道具 举报

发表于 2013-7-4 10:39:25 | 显示全部楼层
写法很重要,你懂的
回复 支持 反对

使用道具 举报

发表于 2013-7-7 09:49:46 | 显示全部楼层
这么深奥的代码,美女有点看不懂该怎么办呢?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-6-7 18:12 , Processed in 0.291133 second(s), 16 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部