请选择 进入手机版 | 继续访问电脑版
查看: 44397|回复: 202

【调研活动】百度spider抓取质量调研

   关闭 [复制链接]
发表于 2013-11-5 14:00:38 | 显示全部楼层 |阅读模式
      如大家所知,网站需要经过百度spider的抓取并收录之后,才能够被广大用户搜索访问。作为整个环节的第一步,百度spider无论对站点、用户、搜索引擎、还是互联网生态都产生着重要影响。抓取效果优劣会影响到终端用户信息获取,其质量至关重要。基于这种背景,我们现在发起“百度spider抓取质量的调研”,希望大家能够积极参与此次调研,帮助我们做出更多的改进。大家在回答问题的时候,可写标题和答案即可,如:1.www.***.com 或者**网  2.A   3.C。
     您的反馈是我们前进的动力,感谢大家长期对百度站长平台的支持!

调研内容:
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)   
   
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (   )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (   )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  (   )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (   )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (   )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (   )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? (   )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?




点评

抓取质量方面有待提升,见帖子:http://bbs.zhanzhang.baidu.com/thread-11452-1-1.html  发表于 2013-11-5 14:07
发表于 2013-11-5 14:15:40 | 显示全部楼层
本帖最后由 lvxianlei2010 于 2013-11-5 14:19 编辑

1. 请填写您的站点域名或者网站名称?(不好说,域名及网站见帖子http://bbs.zhanzhang.baidu.com/thread-11452-1-1.html,一个现实的抓取异常的例子)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  a
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (   )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:改版网站预设压力值,但是发现并没有按预期来弄;期间有过一次,压力过大,递交过申请。

4、每次抓取压力过大时,具体有多大?  (   )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明:发现改版后的新域名基本上暂停了,旧域名抓取不正常;压力过大的时候,c

5、爬虫抓取时间点与站点内容更新时间点关系? ( a  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( a  )
A)抓取的链接有50%以上都是失败的:当改版时,这种情况最容易出现,明明改版规则等提交了,还是抓取很多错误链接。
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)404达到90%以上,基本上都是错误链接。
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复  不固定,权重高的,推广得力的一周内,有的长达半年都不正常。

9、如反馈则是否能修正?响应修正周期一般是多久?  (   )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应  不固定,有的一周,有的两个月,有的一个月

10、是否存在抓取robots禁止页面的情况? (  a )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明:基本上每个站的robots都会失效一定比例,比如动态页面不想被抓取,但是都会有被抓取。

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望对改版时算法研究更加深入点,目前发现网站改版301重定向十分有问题,旧域名的爬取不止出现各种乱七八糟的问题(比如新站robots封了动态地址,还是继续爬;错误的链接持久爬行),新域名也迟迟不能正常。

回复 支持 反对

使用道具 举报

发表于 2013-11-5 14:47:58 | 显示全部楼层
占位编辑
回复 支持 反对

使用道具 举报

发表于 2013-11-5 14:54:34 | 显示全部楼层
调研内容:
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)      
非常爱美网
verym.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:没有超过预期,只有改版或修改网站后有波动。

4、每次抓取压力过大时,具体有多大?  (  A )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (  C )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( B  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
改版后有大量404页面被抓取,比例大概是95%
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( B )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应


10、是否存在抓取robots禁止页面的情况? ( C  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明


11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望能开放真正可用的ping机制,发布后第一时间能通知爬虫,切实保护原创内容。站点建设周期一年,对于网站品牌词无法检索。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 15:01:47 | 显示全部楼层

调研内容:

本帖最后由 qq1595914127 于 2013-11-5 16:24 编辑

调研内容:我的期货网
2.D
3.E发声频率无规律,应该是伴随着月初的更新
4.A
5.A
6.C
7.404
8.D
9.D
10.C
11.今夜不谈蜘蛛....1.站长反馈机制更加人性化一些2.原创保护Ping工具不怎么样3.蜘蛛抓取更新效率问题


回复 支持 反对

使用道具 举报

发表于 2013-11-5 15:07:41 | 显示全部楼层
本帖最后由 四海钓鱼网 于 2013-11-5 17:09 编辑

1. 请填写您的站点域名或者网站名称?(sihaidiaoyu.com ; wafen.cn )      

2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( D  )

A)有,1~2次

B)有,3~10次

C)有,10次以上

D)没有发生过

3、如果发起过超预期压力的抓取,那么发生频率如何?  (   )

A)每天发生

B)每周发生

C)每月发生

D)每年发生

E)其他请注明


4、每次抓取压力过大时,具体有多大?  (   )

A)1~10次/秒

B)10~100次/秒

C)大于100次/s

D)其他请注明


5、爬虫抓取时间点与站点内容更新时间点关系? ( A  )

A)大部份抓取发生在页面更新后1小时内

B)大部分抓取发生在页面更新后1天内

C)大部分抓取发生在页面更新后1周内

D)页面已经很久不更新了,爬虫仍然在抓取

E)其他请注明


6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )

A)抓取的链接有50%以上都是失败的

B)抓取的链接有10%~50%都是失败的

C)抓取的链接有10%以下都是失败的


7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( A )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  不能修复


9、如反馈则是否能修正?响应修正周期一般是多久?  (   )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  没有响应


10、是否存在抓取robots禁止页面的情况? ( A  )

A)存在,robots封禁无效

B)存在,robots封禁策略生效比例50%以上

C)不存在,robots封禁策略正确生效

D)其他请注明


11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?


希望爬虫 对更新后的 老信息,及时快照抓取。 因为网站可能存在老信息 更新。title 栏目名称变动等情况,title 变动这种行为我觉得 爬虫应该及时更新站内信息,而不是降权。更改 title 并不意味着质量就降低,或者网站不稳定。

回复 支持 反对

使用道具 举报

发表于 2013-11-5 15:07:48 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  A )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( E  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明   发生异常是因为改版的时候设置抓取压力特别大,反而没什么效果。过了很长时间突然抓取压力变得巨大。都造成了服务器负担,网页打开缓慢。赶紧设置成默认抓取压力。但不是立即生效。最后不得以使用robots禁止百度蜘蛛爬取一天。

4、每次抓取压力过大时,具体有多大?  ( C  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( B  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)404比较多
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( C )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( C  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( A  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明   

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
已收录的页面想从结果中删除,但该页面并不是死链该如何解决?
回复 支持 反对

使用道具 举报

发表于 2013-11-5 15:09:20 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?洛基英语rockyenglish.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( A  )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明  (偶尔发生)

4、每次抓取压力过大时,具体有多大?  (  B )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( B  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( B  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
     改版时,400比较多
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (B  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  B )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( A  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
     及时抓取,robots禁止无效页面 希望能按照协议抓取。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 15:11:31 | 显示全部楼层
1、领峰贵金属 igoldhk.com
2、A
3、D
4、A
5、B
6、C
7、A
8、404
9、A
10、C
11、希望能够抓取更多的有效页面,并且及时的放出新页面。希望能开放真正可用的ping机制,有效的保护原创内容,避免小站发布的原创内容被大站转载后被当成是转载的了。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 15:13:36 | 显示全部楼层
1、外贸企业邮箱waimaoyou.com
2、A
3、D
4、A
5、B
6、C
7、A
8、404
9、A
10、C
11、希望能够抓取更多的有效页面,并且及时的放出新页面。希望能开放真正可用的ping机制,有效的保护原创内容,避免小站发布的原创内容被大站转载后被当成是转载的了。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-7-12 08:14 , Processed in 0.365363 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部