1. 请填写您的站点域名或者网站名称?(最好填写站点域名) 湖南电影网
hnyy123.com
2、百度爬虫是否对您的站点,发起超过预期压力(影响网站正常服务)的抓取行为? ( D ) A)有,1~2次 B)有,3~10次 C)有,10次以上 D)没有发生过 3、如果发起过超预期压力的抓取,那么发生频率如何? ( C ) A)每天发生 B)每周发生 C)每月发生 D)每年发生 E)其他请注明
4、每次抓取压力过大时,具体有多大? (A ) A)1~10次/秒 B)10~100次/秒 C)大于100次/s D)其他请注明
5、爬虫抓取时间点与站点内容更新时间点关系? ( B ) A)大部份抓取发生在页面更新后1小时内 B)大部分抓取发生在页面更新后1天内 C)大部分抓取发生在页面更新后1周内 D)页面已经很久不更新了,爬虫仍然在抓取 E)其他请注明
6、站点抓取失败率(抓取无效或已经过期的链接占总抓取链接数的比例)如何? ( C ) A)抓取的链接有50%以上都是失败的 B)抓取的链接有10%~50%都是失败的 C)抓取的链接有10%以下都是失败的
7、遇到抓取失败的情况,服务器HTTP错误状态码比例如何?(404、500等) 8、对于抓取异常行为,如不反馈是否能自行修正?需要多长时间? ( A ) A) 能,一周内 B) 能,一月内 C) 能,一月以上 D) 不能修复
9、如反馈则是否能修正?响应修正周期一般是多久? (A ) A) 能,一周内 B) 能,一月内 C) 能,一月以上 D) 没有响应
10、是否存在抓取robots禁止页面的情况? ( C ) A)存在,robots封禁无效 B)存在,robots封禁策略生效比例50%以上 C)不存在,robots封禁策略正确生效 D)其他请注明
11、您的网站对爬虫有什么样期望?您对爬虫的其他意见? 我希望百度爬虫能够正确对待新站,我的这个站已经快3个月了来的蜘蛛基本上都是降权的蜘蛛,希望百度蜘蛛能够一视同仁,给小站长一个机会,我的这个网站我可以保证内容都是有质量的,没有广告,这些不雅内容! 爬虫对小网站爬取频率太低,这样会让我们发布的新内容都无法被正常收录和索引!希望百度能够体谅一下我们这些小站长!
|