请选择 进入手机版 | 继续访问电脑版
查看: 9766|回复: 122

【干的掉渣】robots史上最详尽、最易懂说明及写法

  [复制链接]
发表于 2016-7-22 14:13:30 | 显示全部楼层 |阅读模式
本帖最后由 wisdom神 于 2017-6-22 17:15 编辑

给了发言权,有点小激动,一言不合写个文章-----------------------------------------------------------------------------------------------------------------------
robots介绍:
很多做优化的忽略robots的重要性,我们首先要记住的就是蜘蛛来到网站之后第一个看的就是robots文件,它是搜索引擎的协定,告诉蜘蛛哪些能抓,哪些不能抓,哪些目录下的哪些文件可以抓,这些robots文件都可以实现。优化时候忽略了robots文件的重要性,可能会一不小心被网站编程人员给自己埋了一个坑(详情请看之前的帖子)

robots规则说明:
*代表所有的意思

User-agent
爬虫抓取时会声明自己的身份,这就是User-agent,如果这个规则适用于所有搜索引擎的话,写法:User-agent:*  如果单独适用于百度的话User-agent:Baiduspider
(附一些搜索引擎的名字:百度Baiduspider|谷歌Googlebot|360蜘蛛:360Spider|SOSO蜘蛛:Sosospider|雅虎蜘蛛:Yahoo!|有道蜘蛛:YoudaoBot|搜狗蜘蛛:Sogou News Spider|MSN蜘蛛:msnbot/msnbot-media|必应蜘蛛:bingbot/compatible|一搜蜘蛛:YisouSpider|Alexa蜘蛛:ia_archiver|宜sou蜘蛛:EasouSpider|即刻蜘蛛:JikeSpider|一淘网蜘蛛:EtaoSpider

DisallowDisallow 列出的是要禁止抓取的的网页和规则,后面用/代表层次关系
Disallow:/(代表着禁止抓取网站所有内容
Disallow:/abc(禁止抓取abc及其层次下的内容)
Disallow:/abc/(禁止抓取abc层次下的内容,但是允许抓abc)
Disallow:/*.png(禁止抓取png的图片,其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow:/*.PPT)
Disallow:/abc/*.png(禁止访问abc层次下的PNG图片,其他格式也是)
Disallow:/*?*(屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)
Disallow:/abc/*?*(只屏蔽abc层次下的动态地址)
Disallow:/*?/(屏蔽动态层次下的内容,比如有些文章或栏目是网址/?14125这样URL,这样可以让抓取文章,也可以屏蔽后面内容)
Disallow:/abc/*?/(屏蔽abc栏目下的动态层次下的内容)
其他的按照这个思路灵活使用就行了

Allow
Allow代表允许访问抓取的意思
Allow一定放在disallow的前面才能不受disallow的影响,比如禁止所有动态后,想要排除一个栏目,写法如下:
Allow:/abc
disallow:/*?*
其他的写法参考disallow的逻辑


sitemap
这个只用于告诉蜘蛛网站地图在哪
sitemap:网址/sitemap.xml


Crawl-delay
控制抓取频次,一般有些搜索蜘蛛频繁抓取网站,会对服务器造成很大的负担,这个就是用来控制抓取频次的
User-agent:360Spider
Crawl-delay:10
这句是说,360你抓的太频繁,你抓过之后10秒之后才能下一次抓取


还有就是不让显示快照:
在你不想展示快照页面的head标签中加入 meta name=“robots” content=“noarchive”(禁止所有搜索引擎产生快照)
在你不想展示某个搜索引擎出现快照页面的head标签中加入 meta name=“360Spider” content=“noarchive”(禁止360产生快照,name后面的换成蜘蛛名字即可)


注:以后想到慢慢补充,有问题在下面留言,当然我不一定看


补充:2017年6月22日

检测方法:
打开(百度站长工具)>选择(网页抓取)>选择(Robots)>点击(检测并更新)即可进入。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

评分

参与人数 1金币 +1 收起 理由
周彦充 + 1 赞一个!

查看全部评分

发表于 2016-7-22 14:17:03 | 显示全部楼层
写的太棒了,值得收藏
回复 支持 反对

使用道具 举报

发表于 2016-7-22 14:18:07 | 显示全部楼层
写的太棒了,值得收藏
回复 支持 反对

使用道具 举报

发表于 2016-7-22 14:22:17 | 显示全部楼层
不错,值得学习
回复 支持 反对

使用道具 举报

发表于 2016-7-22 14:22:32 | 显示全部楼层
很详细,支持一下!!
回复 支持 反对

使用道具 举报

发表于 2016-7-22 14:47:33 | 显示全部楼层
还有什么不?还有什么不?能再干点不
回复 支持 反对

使用道具 举报

发表于 2016-7-22 15:00:15 | 显示全部楼层
支持一下
回复 支持 反对

使用道具 举报

发表于 2016-7-22 15:20:21 | 显示全部楼层
太干了,容我喝口水
回复 支持 反对

使用道具 举报

发表于 2016-7-23 06:18:49 | 显示全部楼层
还有什么不?还有什么不?能再干点不
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-7-23 10:42:04 | 显示全部楼层
羊宇殷 发表于 2016-7-23 06:18
还有什么不?还有什么不?能再干点不

没有遇到需求时候是我是想不到的,有问题解决问题呗,只要是想要让抓哪些部分,不想让抓那部分,都可以用robots写出来
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2019-11-19 13:54 , Processed in 0.131090 second(s), 9 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部