请选择 进入手机版 | 继续访问电脑版
楼主: sitemapbbs

【调研活动】百度spider抓取质量调研

  [复制链接]
游客站长  发表于 2013-11-13 14:19:14
shdk-lexus.com ueder.net泛解析就这么受百度spider欢迎???这样的垃圾站遭该全部封杀了
发表于 2013-11-13 14:34:13 | 显示全部楼层
不能发言 为啥 请帮忙!

调研内容:
1. 请填写您的站点域名或者网站名称?(
华夏汽车网)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( A  )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( D  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( D  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明 很少吧建议晚上多抓

5、爬虫抓取时间点与站点内容更新时间点关系? ( B  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (  A )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( A  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? (   C)
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
白天抓主要的内容,晚上抓其他更新
回复 支持 反对

使用道具 举报

发表于 2013-11-13 17:57:39 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(daiyanhk.com)      

2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( A  )

A)有,1~2次

B)有,3~10次

C)有,10次以上

D)没有发生过

3、如果发起过超预期压力的抓取,那么发生频率如何?  (C   )

A)每天发生

B)每周发生

C)每月发生

D)每年发生

E)其他请注明


4、每次抓取压力过大时,具体有多大?  (A   )

A)1~10次/秒

B)10~100次/秒

C)大于100次/s

D)其他请注明


5、爬虫抓取时间点与站点内容更新时间点关系? (B   )

A)大部份抓取发生在页面更新后1小时内

B)大部分抓取发生在页面更新后1天内

C)大部分抓取发生在页面更新后1周内

D)页面已经很久不更新了,爬虫仍然在抓取

E)其他请注明


6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (  C )

A)抓取的链接有50%以上都是失败的

B)抓取的链接有10%~50%都是失败的

C)抓取的链接有10%以下都是失败的


7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
这个倒不是很大

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (A  )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  不能修复


9、如反馈则是否能修正?响应修正周期一般是多久?  ( A  )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( C  )

A)存在,robots封禁无效

B)存在,robots封禁策略生效比例50%以上

C)不存在,robots封禁策略正确生效

D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

我希望爬虫能正常去判断每个站,不要出现人为现象就是万之大吉。
回复 支持 反对

使用道具 举报

发表于 2013-11-14 02:31:12 | 显示全部楼层
坚持的seo 2、D   3、B  4、C  5、C   6、C  7、404  8、B  9、D  10、A  11、希望多支持下原创的小站点。
回复 支持 反对

使用道具 举报

发表于 2013-11-14 16:00:53 | 显示全部楼层
1.noisecontrol.cn 噪声治理-汉克斯降噪网     
2、A)有,1~2次

3、E)其他请注明: 每月中旬出现压力

4、C)大于100次/s

5、E)其他请注明:抓取的内容与网页时间,描述不对应。

6、C)抓取的链接有10%以下都是失败的

7、404

8、D)  不能修复

9、B)  能,一月内

10、B)存在,robots封禁策略生效比例50%以上

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
提升站长录入信息的正常展示,如描述、发布时间。
回复 支持 反对

使用道具 举报

发表于 2013-11-15 12:54:22 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(chuanglian511.com)      

2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  d )

A)有,1~2次

B)有,3~10次

C)有,10次以上

D)没有发生过

3、如果发起过超预期压力的抓取,那么发生频率如何?  ( d  )

A)每天发生

B)每周发生

C)每月发生

D)每年发生

E)其他请注明




4、每次抓取压力过大时,具体有多大?  (   )

A)1~10次/秒

B)10~100次/秒

C)大于100次/s

D)其他请注明




5、爬虫抓取时间点与站点内容更新时间点关系? ( a  )

A)大部份抓取发生在页面更新后1小时内

B)大部分抓取发生在页面更新后1天内

C)大部分抓取发生在页面更新后1周内

D)页面已经很久不更新了,爬虫仍然在抓取

E)其他请注明




6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (   )

A)抓取的链接有50%以上都是失败的

B)抓取的链接有10%~50%都是失败的

C)抓取的链接有10%以下都是失败的




7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (  )


A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  不能修复




9、如反馈则是否能修正?响应修正周期一般是多久?  (   )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  没有响应



10、是否存在抓取robots禁止页面的情况? (   )

A)存在,robots封禁无效

B)存在,robots封禁策略生效比例50%以上

C)不存在,robots封禁策略正确生效

D)其他请注明



11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
认真辨别原创度,我们很多原创被别人效用,别人的收录了,我们的却没有收录。
回复 支持 反对

使用道具 举报

发表于 2013-11-15 13:50:07 | 显示全部楼层
希望百度能够宽进严出,跟谷歌一样,对新站能宽容一些.
回复 支持 反对

使用道具 举报

发表于 2013-11-16 11:46:26 | 显示全部楼层
一堂雾水啊,要好好学习才行
pan.baidu.com/s/1cNEZG



pan.baidu.com/s/1cNEZG
回复 支持 反对

使用道具 举报

发表于 2013-11-18 08:54:59 | 显示全部楼层
调研内容:
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)   
mfbuluo.com
   
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( D  )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明
基本稳定在压力每天50左右
4、每次抓取压力过大时,具体有多大?  ( A  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (B   )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (B   )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( C  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
保护原创内容,让ping后能马上实现抓取
回复 支持 反对

使用道具 举报

发表于 2013-11-18 11:21:32 | 显示全部楼层
:):):)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-2-22 03:56 , Processed in 0.202557 second(s), 10 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部