请选择 进入手机版 | 继续访问电脑版
查看: 24059|回复: 25

【 大神支招】抓取频次和服务器日志中蜘蛛记录的关系?

[复制链接]
发表于 2015-1-20 19:55:57 | 显示全部楼层 |阅读模式
百度站长工具中-》网站分析-》抓取频次,应该说是一个非好的工具,官方给的解释是:百度蜘蛛每天访问您网站的次数。

那么我就在想:抓取频次 =  电信服务器日志百度蜘蛛访问数 + 联通服务器日志蜘蛛访问次数 - 服务器无响应 - 服务器连接超时

这个公式应该是成立的,就算不准确也应该最终数比较接近。

可是我发现我们家网站的数据却对不上:


抓取频次 1月12日 1784次



服务器连接超时 1月12日 2次


服务器无响应 0次


1月12日日志电信 1112次

联通机房忘记截图,访问次数是:1106次


这样:抓取频次 1784次  = 电信 1112次 + 联通 1106次 - 服务器无响应 0次 - 服务器连接超时 2次

1784 = 1112+1106-0-2 这明显不对啊?

我和同事继续看日志发现:

有两IP 123.125.71.102 和 123.125.71.72(这两个ip都是北京联通),在同一秒访问了同一页面。是否对于抓取频次视为一次抓取,而日志中却有两条记录?



我能想到的数值不对,有两种可能造成:
1、我想的算式不对。
2、不同ip的蜘蛛在同一秒访问同一页面视抓取频次为 :一次。

不知道那个更准确。或者这都不对,真实的是怎样的?

PS:我想到这个公式的原因是,我们的电信机房线路不稳定,站长平台也给我发过站内信说,蜘蛛无法通过电信访问。我想 抓取频次 - 日志中的蜘蛛记录 - 服务器无响应 - 服务器连接超时  剩下的应该是电信线路不通的情况。

可是电信的加联通的 居然比抓取频次大!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1金币 +1 收起 理由
movefor + 1 w ww.mgxsfm.com bbs.mgxsfm.com

查看全部评分

发表于 2015-1-20 20:01:29 | 显示全部楼层
或许站长工具的计数还有其他的条件没有公布,近似值已经很不错了
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-1-20 20:29:11 | 显示全部楼层
Eddie 发表于 2015-1-20 20:01
或许站长工具的计数还有其他的条件没有公布,近似值已经很不错了

抓取频次 1700多,两个服务器的日志中 1112和1106 加起来 2200多了。这说不过去啊。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-1-21 09:01:29 | 显示全部楼层
自己顶。:)
回复 支持 反对

使用道具 举报

发表于 2015-1-21 09:47:33 | 显示全部楼层
你这公式要不成立呢。。。
回复 支持 反对

使用道具 举报

发表于 2015-1-21 10:24:50 | 显示全部楼层
Eddie 发表于 2015-1-20 20:01
或许站长工具的计数还有其他的条件没有公布,近似值已经很不错了

确实没有准确的值
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-1-21 16:02:07 | 显示全部楼层
man_hok 发表于 2015-1-21 09:47
你这公式要不成立呢。。。

我也考虑不成立这个因素了,那么有相关性吗?
回复 支持 反对

使用道具 举报

发表于 2015-1-21 17:24:55 | 显示全部楼层
我的未找到和服务器超时经常会蹦出来,不过量都不大,每次都是3  5个的样子  有的时候没有有的时候有,很纠结,百度了很久没找到答案
回复 支持 反对

使用道具 举报

发表于 2015-1-21 19:48:44 | 显示全部楼层
liyuehui1987 发表于 2015-1-21 16:02
我也考虑不成立这个因素了,那么有相关性吗?

抓取的思路是根据链接站点走的,所以你联通或电信是按IP走的,这里是不是有可能两个IP指向了一个链接?
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-1-21 20:57:34 | 显示全部楼层
man_hok 发表于 2015-1-21 19:48
抓取的思路是根据链接站点走的,所以你联通或电信是按IP走的,这里是不是有可能两个IP指向了一个链接? ...

电信和联通的服务器上同时被分发过去的同样的页面。比如 f 域名下,联通有100个页面,电信也同样有100个页面。

那么对于一个用户来说,我访问 f 域名,最终访问到的不是联通就是电信。这两天服务器上只有一台服务器留有日志。

那么百度蜘蛛是否也是一个用户呢?当访问 f 域名时,是不是两台服务器只有一条日志?

站长抓取频次 和 蜘蛛访问 是同一回事儿。当蜘蛛分别从两个ip 访问 f 域名,服务器中会有两条日志。而百度抓取频次认为是一次访问?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2019-10-24 04:57 , Processed in 0.405050 second(s), 9 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部