请选择 进入手机版 | 继续访问电脑版
楼主: sitemapbbs

【调研活动】百度spider抓取质量调研

   关闭 [复制链接]
发表于 2013-11-5 20:12:02 | 显示全部楼层
本帖最后由 674316 于 2013-11-5 20:13 编辑

1. 请填写您的站点域名或者网站名称?(spdiy.net 视频DIY )      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  D)
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( B  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  (B   )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( A  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( C )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( C  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? (   C)
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

网站降权中....
回复 支持 反对

使用道具 举报

发表于 2013-11-5 20:17:13 | 显示全部楼层
您的网站对爬虫有什么样期望?您对爬虫的其他意见?
如果百度站长工具可以提现到蜘蛛都是抓取了那些网址就好了。或者是出一个蜘蛛分析工具。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 22:03:25 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(最好填写站点域名)      
cqayzs.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  A)
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (C   )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  (A   )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (  C )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
抓取失败服务器HTTP错误状态码404比例80%以上。
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( D )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (  A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应


10、是否存在抓取robots禁止页面的情况? ( A  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明


11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
Robots里面禁止过多月了,蜘蛛还是会去抓取,相隔段时间总是会出现先禁止的页面,而且提交了,更新也很慢。  
希望蜘蛛对于robots发生改变的内容能够及时的发觉,并根据协议抓取,避免抓取无用的页面。还有抓取后会出现内容跟时间不同步的情况。
回复 支持 反对

使用道具 举报

发表于 2013-11-5 23:37:31 | 显示全部楼层
本帖最后由 mylaoshulaile 于 2013-11-5 23:38 编辑

1. 请填写您的站点域名或者网站名称?(www。mywenxue。com 站名 墨缘文学网,不过百度搜索不到了,给我降权了呵呵)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( D  )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( E  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明 我的是高配置独立服务器,不存在压力问题的

4、每次抓取压力过大时,具体有多大?  (  E )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明 内容如3。我的是高配置独立服务器,基本不存在压力问题的

5、爬虫抓取时间点与站点内容更新时间点关系? (  A )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(500)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( A )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (   )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( D  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明 robots使用封禁个别文件夹,不过日志还有蜘蛛的访问记录

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

爬虫能及时抓取有质量的内容,好多都是没质量的抓取量超高,有质量的内容不太理想,希望站长能给提交希望有质量的目录进行提交,进行相对性的给多一点权重,为防止恶意提交,可以人工审核,和目录最短使用时间期限等等,站长论坛混了一年多没有发言权,这次主要提交蜘蛛压力等等问题,在这里说多了一点,见谅
回复 支持 反对

使用道具 举报

发表于 2013-11-6 00:57:29 | 显示全部楼层
调研内容:
1. 9NB笑话网  9nb.net
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  d
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( a  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( a
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? ( a  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( c  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

特别是改版期,特别眼中基本上50%是失败的。然后百度站长平台反馈的也不准确。百度更新的速度的确缓慢。

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( c
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( c
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( c  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
能够更加精准的判断那些文章是原创内容,有个比较准确的时间效应。对一些优质内容和站点有相对优先的排名措施
回复 支持 反对

使用道具 举报

发表于 2013-11-6 07:30:48 | 显示全部楼层
1、地摊网 aibai123.com
2、A
3、D
4、A
5、C
6、A
7、404
8、A
9、A
10、A
11、希望能够抓取更多的有效页面,并且及时的放出新页面。希望能开放真正可用的ping机制,有效的保护原创内容,避免小站发布的原创内容被大站转载后被当成是转载的了。
回复 支持 反对

使用道具 举报

发表于 2013-11-6 08:48:52 | 显示全部楼层
抓取压力到没什么问题,问题就是每天爬虫来的很勤奋,也有收录但就是没排名,1年多一直如此,在其他搜索引擎下收录于排名均为正常,唯独百度不同,去站长反馈那里也反馈几次了,均无结果。小站域名shishanghezi.com,绝无任何针对百度搜索引擎过渡优化以及对排名收录任何作弊手法,请相关技术人员明查,谢谢!
回复 支持 反对

使用道具 举报

发表于 2013-11-6 09:06:39 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(www。cuoxin。com,错新网)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (A   )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (E,这个比较有随机性   )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( A  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (A   )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404占多数、500极少)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( C )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  ( C  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? (  C )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
不知道是不是国外服务器的原因,爬虫对网站抓取的频率起伏很大,今天有可能是过万次,明天也有可能只剩几百次,网站的日常维护都是正常的,希望爬虫能在稳定度上能够保持正常水平。
回复 支持 反对

使用道具 举报

发表于 2013-11-6 09:07:07 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(dobunkan.com)      

2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  a )

A)有,1~2次

B)有,3~10次

C)有,10次以上

D)没有发生过

3、如果发起过超预期压力的抓取,那么发生频率如何?  ( c  )

A)每天发生

B)每周发生

C)每月发生

D)每年发生

E)其他请注明:改版网站预设压力值,但是发现并没有按预期来弄;期间有过一次,压力过大,递交过申请。




4、每次抓取压力过大时,具体有多大?  (  a )

A)1~10次/秒

B)10~100次/秒

C)大于100次/s

D)其他请注明:发现改版后的新域名基本上暂停了,旧域名抓取不正常;压力过大的时候,c




5、爬虫抓取时间点与站点内容更新时间点关系? ( a  )

A)大部份抓取发生在页面更新后1小时内

B)大部分抓取发生在页面更新后1天内

C)大部分抓取发生在页面更新后1周内

D)页面已经很久不更新了,爬虫仍然在抓取

E)其他请注明




6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( a  )

A)抓取的链接有50%以上都是失败的:当改版时,这种情况最容易出现,明明改版规则等提交了,还是抓取很多错误链接。

B)抓取的链接有10%~50%都是失败的

C)抓取的链接有10%以下都是失败的




7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)404达到90%以上,基本上都是错误链接。

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( b )


A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  不能修复  不固定,权重高的,推广得力的一周内,有的长达半年都不正常。




9、如反馈则是否能修正?响应修正周期一般是多久?  ( b  )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  没有响应  不固定,有的一周,有的两个月,有的一个月



10、是否存在抓取robots禁止页面的情况? (  b  )

A)存在,robots封禁无效

B)存在,robots封禁策略生效比例50%以上

C)不存在,robots封禁策略正确生效

D)其他请注明:基本上每个站的robots都会失效一定比例,比如动态页面不想被抓取,但是都会有被抓取。



11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

这个还真的有点不好说,我只想说,robots.txt禁止的目录最好让蜘蛛别爬,另外,很多人因为引蜘蛛,到处发链接,这在一定程度上造成了网络垃圾,我认为这个应该想想办法予以完善,其次最好能让蜘蛛识别隐藏链接,当前这样的作弊手段依然很猖狂。
回复 支持 反对

使用道具 举报

发表于 2013-11-6 09:49:17 | 显示全部楼层
调研内容:
1. tuniu.com      
2、D
3、E
4、A
5、C
6、B
7、404及301数量总和占比25%左右
8、D
9、B
10、B
11、观察日志下来发现最大的问题是不完全遵守robots.txt的规则,比如提取页面上js中的url链接进行抓取,或者疯狂抓js,目测是没有放入带抓取列表与robots中封禁的对比过滤。除此以外更大的坑就是对于disallow某目录而allow该目录中的部分url的不支持
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-1-22 05:27 , Processed in 0.226546 second(s), 10 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部