请选择 进入手机版 | 继续访问电脑版
楼主: sitemapbbs

【调研活动】百度spider抓取质量调研

  [复制链接]
发表于 2013-11-5 17:16:41 | 显示全部楼层
本帖最后由 bitty56 于 2013-11-13 16:04 编辑


1. 请填写您的站点域名或者网站名称?(最好填写站点域名)      
zhangxundf.cn
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D )
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
4、每次抓取压力过大时,具体有多大?  (  A )
5、爬虫抓取时间点与站点内容更新时间点关系? (  B )
6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (C )
7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
很少有404与500
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (A )
9、如反馈则是否能修正?响应修正周期一般是多久?  (  A )
10、是否存在抓取robots禁止页面的情况? ( C  )
11、原创的识别
回复 支持 反对

使用道具 举报

发表于 2013-11-5 17:21:40 | 显示全部楼层
1、中国易发网 www点yifa360点cn
2、A
3、D
4、A
5、B
6、C
7、A
8、404
9、A
10、C
11、希望能够抓取更多的有效页面,并且及时的放出新页面。希望能开放真正可用的ping机制,有效的保护原创内容,避免小站发布的原创内容被大站转载后被当成是转载的了。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 17:31:26 | 显示全部楼层
1、搜房
2、d
3、
4、
5、b
6、c
7、404
8、a
9、a
10、c
11、希望能对移动的爬虫做一些官方说明
回复 支持 反对

使用道具 举报

发表于 2013-11-5 17:51:53 | 显示全部楼层

调研内容:
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)      
商标
isbzc.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:没有超过预期,只有改版或修改网站后有波动。

4、每次抓取压力过大时,具体有多大?  (  A )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (  A )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (C )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
很少有404与500
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应


10、是否存在抓取robots禁止页面的情况? ( C  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明


11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望能识别原创!
回复 支持 反对

使用道具 举报

发表于 2013-11-5 18:39:11 | 显示全部楼层
1、zhongzi5.com
2、D
3、E,暂时还没有发生过
4、D,没有过压力过大,因为蜘蛛很少来
5、D
6、C
7、暂时没有遇到过抓取失败的情况。
8、C (这个没有亲身实践过,估计值。)
9、D (百度不管是什么,基本上都是没有回应的。虽然有了这个站长平台,里面的帖子也基本上从来都没有百度官方人员去回答。多半都是不了了之了。正是:后来就没有后来了。)
10、C  (本人没有遇到过,因为我没有屏蔽过百度。但是,有不少人反应有这种情况。)
11、希望爬虫一定要遵守robots去抓取。并希望抓取后,将快照日期及时正确的显示出来,不要像现在这样,百度搜索居然会1995年的快照日期(个别网站)。并希望爬虫对站点不分类别,不分大小的进行排名及比对,不要分开存储。即使大站在权重上占居有一定的优势,但是,只要小站的内容优秀,用户体验优秀。能够得到用户的支持,还是希望搜索引擎能够正确的对待这些小站。个人觉得,以后应该是更为专题性的网站才能够给予用户更多的帮助。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 18:52:13 | 显示全部楼层


1. 请填写您的站点域名或者网站名称?(www_3eeedy_com)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  d
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( e  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:改版网站预设压力值,但是发现并没有按预期来弄;期间有过一次,压力过大,递交过申请。

4、每次抓取压力过大时,具体有多大?  ( c  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明:发现改版后的新域名基本上暂停了,旧域名抓取不正常;压力过大的时候,c

5、爬虫抓取时间点与站点内容更新时间点关系? ( a  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( a  )
A)抓取的链接有50%以上都是失败的:当改版时,这种情况最容易出现,明明改版规则等提交了,还是抓取很多错误链接。
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)404达到90%以上,基本上都是错误链接。
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (d  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复  不固定,权重高的,推广得力的一周内,有的长达半年都不正常。

9、如反馈则是否能修正?响应修正周期一般是多久?  ( d  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应  不固定,有的一周,有的两个月,有的一个月

10、是否存在抓取robots禁止页面的情况? (  c )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明:基本上每个站的robots都会失效一定比例,比如动态页面不想被抓取,但是都会有被抓取。

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望对站点出现的违反百度抓取的情况,百度能消息提醒,目前我是没收到一条消息提醒,还有百度反馈希望百度工作人员能认真落实,不要整个反馈成功就行了,一点反应都没有。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 19:13:20 | 显示全部楼层
调研内容:
1. 请填写您的站点域名或者网站名称?(www#logonc#com  藏标网)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (   d)
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (无   )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  (  无 )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (a   )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( c  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)

一般都是404

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( a )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  d )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? (a   )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明
出现很多重复首页,程序bug 已经robots屏蔽了
11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

希望能开放sitemap的申请,xia
回复 支持 反对

使用道具 举报

发表于 2013-11-5 19:23:55 | 显示全部楼层
本帖最后由 piewan 于 2013-11-5 19:25 编辑


调研内容:
1. 请填写您的站点域名或者网站名称?(丿玩游戏网 piewan.com )      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( A  )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过

3、如果发起过超预期压力的抓取,那么发生频率如何?  ( D  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( C  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( B  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404 )

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( D )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( D  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( B  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
建议不要抓取JS CSS等无关文件



回复 支持 反对

使用道具 举报

发表于 2013-11-5 19:34:07 | 显示全部楼层
调研内容:
1. 请填写您的站点域名或者网站名称?(毕业设计论文网 lw.56doc.com)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:没有超过预期,只有改版或修改网站后有波动。
4、每次抓取压力过大时,具体有多大?  (  A )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明
5、爬虫抓取时间点与站点内容更新时间点关系? (  C )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明
6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( B  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的
7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
改版后有大量404页面被抓取,比例大概是95%
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( B )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复
9、如反馈则是否能修正?响应修正周期一般是多久?  (  A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( C  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望能切实保护原创内容。站点建设周期3年,对于网站品牌词无法检索。

回复 支持 反对

使用道具 举报

发表于 2013-11-5 19:43:07 | 显示全部楼层
1. xiaoj.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (A   )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (B   )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( B  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( B  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (C   )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等) 404
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (A  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( A  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? (  C )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
      
       站点的页面数近百万。但是大部分页面都还没被收录。蜘蛛也有爬过但是不被收录。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-11-27 15:18 , Processed in 0.304731 second(s), 16 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部