请选择 进入手机版 | 继续访问电脑版
楼主: sitemapbbs

【调研活动】百度spider抓取质量调研

  [复制链接]
发表于 2013-11-7 03:12:42 | 显示全部楼层
为什么我的新站提交了2个月没被收录,域名是刚注的,会不会这域名名以前让黑名单过?
回复 支持 反对

使用道具 举报

发表于 2013-11-7 08:32:38 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(wxyls.cn ; shhfys.com)      

2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( a  )

A)有,1~2次

B)有,3~10次

C)有,10次以上

D)没有发生过

3、如果发起过超预期压力的抓取,那么发生频率如何?  (c   )

A)每天发生

B)每周发生

C)每月发生

D)每年发生

E)其他请注明


4、每次抓取压力过大时,具体有多大?  (  a )

A)1~10次/秒

B)10~100次/秒

C)大于100次/s

D)其他请注明


5、爬虫抓取时间点与站点内容更新时间点关系? ( b  )

A)大部份抓取发生在页面更新后1小时内

B)大部分抓取发生在页面更新后1天内

C)大部分抓取发生在页面更新后1周内

D)页面已经很久不更新了,爬虫仍然在抓取

E)其他请注明


6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )

A)抓取的链接有50%以上都是失败的

B)抓取的链接有10%~50%都是失败的

C)抓取的链接有10%以下都是失败的


7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( A )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  不能修复


9、如反馈则是否能修正?响应修正周期一般是多久?  (  a )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( A  )

A)存在,robots封禁无效

B)存在,robots封禁策略生效比例50%以上

C)不存在,robots封禁策略正确生效

D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

百度应该健全对于网站的软文发布时间的权重影响,增强版权保护意思。
回复 支持 反对

使用道具 举报

发表于 2013-11-7 10:27:24 | 显示全部楼层
1、创意吧cy8.net
2、A
3、D
4、A
5、B
6、C
7、A
8、404
9、A
10、C
11、希望能够抓取更多的有效页面,并且及时的放出新页面。希望能开放真正可用的ping机制,有效的保护原创内容,避免小站发布的原创内容被大站转载后被当成是转载的了。
回复 支持 反对

使用道具 举报

发表于 2013-11-7 10:46:14 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(qianzhengshang.com)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( D  )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (   )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  (   )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( C  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( C )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  C )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( C  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望爬虫及时更新,及时快照抓取。 title修改不代表网站出现问题,应该判断title是否符合原网站内容,降权应该体现在其他方面。
回复 支持 反对

使用道具 举报

发表于 2013-11-7 15:07:03 | 显示全部楼层
1.hisu.org 2.D 3.E暂未出现 4.D暂未出现 5.C 6.B 7.站长不显示 8.D 9.C 10.C 11.应该学习下360的spider了,现在360都做得比百度好。
回复 支持 反对

使用道具 举报

发表于 2013-11-7 17:01:07 | 显示全部楼层
1.85653333.com  南通维多利亚整形美容医院      
2. D  
3. E (偶尔会发生一下,但是还是很少)
4.B
5.A
6. C  
7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8.C
9.A
10.  C  
11.希望处理不存在的链接时能够更快速去除,robots.txt生效时间短,保护原创内容,希望开放PING机制功能,这样对于网站的原创也是一种保护,给站长们一点信心。更新页面的速度也能够快一点。泛站群的现象也越来越严重,希望能够百度官方重视一下。




回复 支持 反对

使用道具 举报

发表于 2013-11-8 00:58:30 | 显示全部楼层
1、萌窝窝mengwowo.com
2、D
3、E在承受范围内
4、E在承受范围内
5、A
6、C(近两个月没有抓取失败)
7、没有失败
8、没有失败
9、没有失败
10、C
11、爬虫来我网站很积极。基本上10分钟就收录了。但是估计在百度评估的权重不高,所以基本上没有什么排名。不过我正在努力,不断充实内容。希望早日得到百度的信任和支持!当然,站长平台的各位大大们如果能直接指点小站一二,小弟感激涕零!
回复 支持 反对

使用道具 举报

发表于 2013-11-8 09:08:13 | 显示全部楼层

1.ccepe.com
2.A
3.C
4.B
5.B
6.B
7.B
8.404
9.A
10.A
11.对修改过的页面有抓取但是不更新快照,希望能够及时的修正抓取页面,然后就是提高对robots的有效率,对提交的页面能够及时的抓取放出
回复 支持 反对

使用道具 举报

发表于 2013-11-8 10:26:55 | 显示全部楼层
本帖最后由 博大互通郑州 于 2013-11-8 10:29 编辑

1. 我的站点微宏捷信通  jiexintong.cn      

2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D
3、如果发起过超预期压力的抓取,那么发生频率如何?  (   )


E)其他  --没发现过



4、每次抓取压力过大时,具体有多大?  (   )

D)其他请注明---周爬行




5、爬虫抓取时间点与站点内容更新时间点关系? (   )
C)大部分抓取发生在页面更新后1周内
6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (   )

C)抓取的链接有10%以下都是失败的




7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (  )



D)  不能修复




9、如反馈则是否能修正?响应修正周期一般是多久?  (   )


B)  能,一月内




10、是否存在抓取robots禁止页面的情况? (   )
D)其他请注明--正在观察中



11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

对于站长提交的死链,请及时更新;





回复 支持 反对

使用道具 举报

发表于 2013-11-8 16:30:50 | 显示全部楼层
1、黑龙江百盛高空作业车租赁公司    tzc.net.cn

2、A
3、D
4、A
5、B
6、C
7、A
8、404
9、A
10、C
11、希望百度快点收录,网站快照更新过慢
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-12-4 22:46 , Processed in 0.303938 second(s), 16 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部