请选择 进入手机版 | 继续访问电脑版
楼主: sitemapbbs

【调研活动】百度spider抓取质量调研

   关闭 [复制链接]
发表于 2013-11-6 13:51:45 | 显示全部楼层
这个还没用发言权限????
回复 支持 反对

使用道具 举报

发表于 2013-11-6 13:52:27 | 显示全部楼层
刚才为什么不能发?
回复 支持 反对

使用道具 举报

发表于 2013-11-6 14:13:39 | 显示全部楼层
晕死!不能发链接,花了很久编辑的帖子废了。

调研内容:
1. shcaoan.com      
2、D
3、E
4、D
5、B
6、B
7、百度spiderHTTP错误状态码约10%左右
8、C
9、C
10、B
11、
①不完全遵守robots.txt的规则,有时会抓取禁止的页面。

②百度spider抓取了大量垃圾页面,如一些黑帽seo用软件根据关键词采集的大量搜索引擎搜索结果页面,这些页面带有链接,致使无数站长躺抢,疲于在站长后台禁止这些垃圾外链!

③百度数据库近期开始收录和放出一些权重站点垃圾甚至违禁词搜索结果页面,这些也是软件产生的。有些小人搜索时恶意带上域名和违禁词中伤目标站。百度spider应该设置禁止搜索和入库这些页面,也浪费资源。其他引擎好像没有发现这个现象。
如,百度自己的:

在百度搜索框输入---site:dict.baidu.com www(第4页开始往后)
在百度搜索框输入---site:xiangce.baidu.com www(18页开始往后)

其他:
在百度搜索框输入---site:so.aipai.com www结果令人吃惊!)
在百度搜索框输入---site:so.a67.com www结果令人目瞪口呆!)

。。。还有很多。domain:+域名就会发现。这些垃圾外链在站长后台还没有显示,关键是有的后台禁止许久了还在!

④死链提交和robots同时禁止的页面过很久了还有少部分能搜到,不过这不是spider的问题。

另外有一个不情之请,本人注册很久了,几乎天天登陆,烦请sitemapbbs给予发言权限,谢谢。
回复 支持 反对

使用道具 举报

发表于 2013-11-6 14:30:18 | 显示全部楼层
site:so.aipai.com www现在搜,又要在第5页之后才出现恶劣内容。site:so.aipai.com www也是。如果大家搜的时候没有就往后多翻几页看。
回复 支持 反对

使用道具 举报

发表于 2013-11-6 15:58:50 | 显示全部楼层
1. hcpf120.com
2. A
3. C
4. A
5. A
6. C
7. 404
8. D
9. D
10.B
11.抓取正常,按照协议来走,特别是对于新站来说抓取的机制最好能有所变动更好
回复 支持 反对

使用道具 举报

发表于 2013-11-6 16:23:18 | 显示全部楼层
  1. 请填写您的站点域名或者网站名称?(迅美女性网 4865.com)

  2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为? ( a)

  A)有,1~2次

  B)有,3~10次

  C)有,10次以上

  D)没有发生过

  3、如果发起过超预期压力的抓取,那么发生频率如何? ( d)

  A)每天发生

  B)每周发生

  C)每月发生

  D)每年发生

  E)其他请注明

  4、每次抓取压力过大时,具体有多大? (a )

  A)1~10次/秒

  B)10~100次/秒

  C)大于100次/s

  D)其他请注明:

  5、爬虫抓取时间点与站点内容更新时间点关系? ( b )

  A)大部份抓取发生在页面更新后1小时内

  B)大部分抓取发生在页面更新后1天内

  C)大部分抓取发生在页面更新后1周内

  D)页面已经很久不更新了,爬虫仍然在抓

  E)其他请注明:有时候原创文章爬虫都不抓,时间超过一周

  6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( c )

  A)抓取的链接有50%以上都是失败的:当改版时,这种情况最容易出现,明明改版规则等提交了,还是抓取很多错误链接。

  B)抓取的链接有10%~50%都是失败的

  C)抓取的链接有10%以下都是失败的

  7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)

  404居多,很多都是错误链接

  8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( c)

  A) 能,一周内

  B) 能,一月内

  C) 能,一月以上

  D) 不能修复 不固定,权重高的,推广得力的一周内,有的长达半年都不正常。

  9、如反馈则是否能修正?响应修正周期一般是多久? (d )

  A) 能,一周内

  B) 能,一月内

  C) 能,一月以上

  D) 没有响应 不固定,有的一周,有的两个月,有的一个月

  10、是否存在抓取robots禁止页面的情况? ( b )

  A)存在,robots封禁无效

  B)存在,robots封禁策略生效比例50%以上

  C)不存在,robots封禁策略正确生效

  D)其他请注明:50%是夸张的了,不过多多少少存在不遵守协议的情况,有些新站明明屏蔽却还是被收录了。

  11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?

  能再智能一些,不是说原创文章排名会比伪原创好吗?那人家复制粘贴、伪原创的排名照样顶在前面。
回复 支持 反对

使用道具 举报

发表于 2013-11-6 17:11:13 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(三鹿语录网sannu.net)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  A )
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  (  B )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明

4、每次抓取压力过大时,具体有多大?  ( A)
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明

5、爬虫抓取时间点与站点内容更新时间点关系? (  B )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)

呈现404页面

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( B )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复

9、如反馈则是否能修正?响应修正周期一般是多久?  (C   )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应

10、是否存在抓取robots禁止页面的情况? ( B  )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望能正确的遵守协议,拒绝抓取的页面尽量做到不收录
回复 支持 反对

使用道具 举报

发表于 2013-11-6 17:26:47 | 显示全部楼层
占坑中....等待编辑
回复 支持 反对

使用道具 举报

发表于 2013-11-6 20:38:04 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(niuzaioo.com)      
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   (  d
A)有,1~2次
B)有,3~10次
C)有,10次以上
D)没有发生过
3、如果发起过超预期压力的抓取,那么发生频率如何?  ( 无压力过大现象  )
A)每天发生
B)每周发生
C)每月发生
D)每年发生
E)其他请注明:

4、每次抓取压力过大时,具体有多大?  ( b  )
A)1~10次/秒
B)10~100次/秒
C)大于100次/s
D)其他请注明:

5、爬虫抓取时间点与站点内容更新时间点关系? ( a  )
A)大部份抓取发生在页面更新后1小时内
B)大部分抓取发生在页面更新后1天内
C)大部分抓取发生在页面更新后1周内
D)页面已经很久不更新了,爬虫仍然在抓取
E)其他请注明

6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( c )
A)抓取的链接有50%以上都是失败的
B)抓取的链接有10%~50%都是失败的
C)抓取的链接有10%以下都是失败的

7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)
8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? (  )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  不能修复  

9、如反馈则是否能修正?响应修正周期一般是多久?  (   )
A)  能,一周内
B)  能,一月内
C)  能,一月以上
D)  没有响应  

10、是否存在抓取robots禁止页面的情况? (  a )
A)存在,robots封禁无效
B)存在,robots封禁策略生效比例50%以上
C)不存在,robots封禁策略正确生效
D)其他请注明:

11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?
希望能严格按照robots抓取,对于原创的相关性强的新增页面给予更多的照顾。

回复 支持 反对

使用道具 举报

发表于 2013-11-6 21:38:28 | 显示全部楼层
1. 请填写您的站点域名或者网站名称?(微电影制作论坛vying.cc
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为?   ( B )

A)有,1~2次

B)有,3~10次

C)有,10次以上

D)没有发生过

3、如果发起过超预期压力的抓取,那么发生频率如何?  (  c )

A)每天发生

B)每周发生

C)每月发生

D)每年发生

E)其他请注明




4、每次抓取压力过大时,具体有多大?  (  B )

A)1~10次/秒

B)10~100次/秒

C)大于100次/s

D)其他请注明




5、爬虫抓取时间点与站点内容更新时间点关系? ( B)

A)大部份抓取发生在页面更新后1小时内

B)大部分抓取发生在页面更新后1天内

C)大部分抓取发生在页面更新后1周内

D)页面已经很久不更新了,爬虫仍然在抓取

E)其他请注明




6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C  )

A)抓取的链接有50%以上都是失败的

B)抓取的链接有10%~50%都是失败的

C)抓取的链接有10%以下都是失败的




7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等)

8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( A )


A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  不能修复




9、如反馈则是否能修正?响应修正周期一般是多久?  (   )

A)  能,一周内

B)  能,一月内

C)  能,一月以上

D)  没有响应



10、是否存在抓取robots禁止页面的情况? ( C  )

A)存在,robots封禁无效

B)存在,robots封禁策略生效比例50%以上

C)不存在,robots封禁策略正确生效

D)其他请注明



11、您的网站对爬虫有什么样期望?您对爬虫的其他意见?



希望爬虫 对更新后的 老信息,及时更新快照。 因为网站可能存在老信息 更新。title 栏目名称变动等情况,title 变动这种行为我觉得 爬虫应该及时更新站内信息,而不是降权。更改 title 并不意味着质量就降低,或者网站不稳定。

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-1-24 13:35 , Processed in 0.190450 second(s), 8 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部