请选择 进入手机版 | 继续访问电脑版
楼主: sitemapbbs

【调研活动】百度spider抓取质量调研

  [复制链接]
发表于 2013-11-11 16:17:23 | 显示全部楼层
1、新奇DIY网 xqdiy.com
2、B
3、E 新站 基本没有超过压力的时候
4、A
5、E 更新很久都没有被爬虫抓取
6、A
7、A
8、A
9、D
10、C
11、希望新站的内容页面可以更快被爬行和收录,希望sitemap工具可以正式公开使用,另外对原创内容的保护以及排名优先机制应该尽快出台,以及对采集网站或者侵权网站应该有一个举报渠道
回复 支持 反对

使用道具 举报

发表于 2013-11-11 18:43:33 | 显示全部楼层
哈哈,暂无发言权
回复 支持 反对

使用道具 举报

发表于 2013-11-12 11:48:26 | 显示全部楼层
调研内容:
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)      
非常爱美网
verym.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:没有超过预期,只有改版或修改网站后有波动。

4、每次抓取压力过大时,具体有多大?  (  A )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (  C )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( B  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
改版后有大量404页面被抓取,比例大概是95%
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( B )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应


10、是否存在抓取robots禁止页面的情况? ( C  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明


11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望能开放真正可用的ping机制,发布后第一时间能通知爬虫,切实保护原创内容。站点建设周期一年,对于网站品牌词无法检索。
希望百度不要把那么多垃圾文章收录给排名,尤其是高权重网站里面全部转载的文章也都给收录并且给与好的排名,一搜首页出现的结果虽然站点不同但是内容都一样
回复 支持 反对

使用道具 举报

发表于 2013-11-12 11:55:37 | 显示全部楼层
本帖最后由 queshao 于 2013-11-12 12:03 编辑

1. 写了说不允许发URL    queshao.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  d )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( e  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( d  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (  b )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? (c   )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (  d)
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  d )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( b  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

爬虫能更有规律,抓取能更及时,现在主要是不及时,页面一般都在1-2天以后才能被抓取,并且之前抓取的页面有失效的情况,抓到新的,旧的就没了,其实页面是一直存在的,索引量变化无常啊。。。动辄几万的变动量,吓人啊!
回复 支持 反对

使用道具 举报

发表于 2013-11-12 13:48:34 | 显示全部楼层
1、波奇网boqii.com
2、d
3、e 未超出
4、d 未超出
5、b
6、c
7、404居多,少数500
8、a
9、b
10、b
11、原创的文章识别率希望还可以提高,网站不少原创内容均未被收录,无法解决
回复 支持 反对

使用道具 举报

发表于 2013-11-12 20:08:49 | 显示全部楼层
调研内容:
1. 请填写您的站点域名或者网站名称?(17huai.com)   
   
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( A  )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  A )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( B  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (  C )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( B  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( D )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( C  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望对新站的抓取和索引能更快速一点。
回复 支持 反对

使用道具 举报

发表于 2013-11-12 21:26:10 | 显示全部楼层
都想发帖交流 发不了 管理员求权限
回复 支持 反对

使用道具 举报

发表于 2013-11-13 04:17:01 | 显示全部楼层
、中国壁挂炉网 8gl.com
2、A
3、D
4、A
5、B
6、C
7、A
8、404
9、A
10、C
11、希望能够抓取更多的有效页面,并且及时的放出新页面。希望可以做一些关于DZ论坛类似的工具~或者制作方式!
回复 支持 反对

使用道具 举报

发表于 2013-11-13 08:42:32 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)      
上海享宁机电设备有限公司
shsnow.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  E )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:没有超过预期,只有改版或修改网站后有波动。

4、每次抓取压力过大时,具体有多大?  (  A )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( A )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
404状态吗的概率出现在50%左右

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( C )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( B )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应


10、是否存在抓取robots禁止页面的情况? ( B  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明


11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望能够实实在在的分辨出原创文章,站点经常更新原创文章的排名好像还比不上人家复制粘贴的或是伪原创的
回复 支持 反对

使用道具 举报

发表于 2013-11-13 09:29:02 | 显示全部楼层
1、 UG教程www .52gcs. com
2、A
3、D
4、A
5、B
6、C
7、404
8、C
9、B
10、A
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-2-23 14:19 , Processed in 0.217113 second(s), 10 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部