请选择 进入手机版 | 继续访问电脑版
查看: 16545|回复: 40

robots文件中到底要不要屏蔽JS和css

[复制链接]
发表于 2015-1-12 00:07:19 | 显示全部楼层 |阅读模式
本帖最后由 ccutu 于 2015-4-26 03:12 编辑

最近发现百度蜘蛛每日抓取网站的js和css文件非常频繁,甚至能占每日抓取量的五分之一,百度蜘蛛每日抓取5000次,其中单独抓取js和css文件就有一千多次。

遇到这种情况,是否应该屏蔽蜘蛛抓取上述文件??

已经收到比较正确的答案,来源自版主:lvxianlei2010

需要说明,下面为个人见解:
1、robots全部屏蔽掉不太建议,因为随着网页的发展,资源种类越来越多,蜘蛛需要分析;
2、根据之前看到的百度对网页主体内容模板的专利的简单介绍可以得出下面几个观点:
A、百度能够根据前台页面的链接布局、框架,判断出一个站点的主要页面类型,及各页面适合用户浏览的主体内容;
B、因此如果js、css等如果对蜘蛛判断站点的主体内容没有什么影响,比如遮罩、跟踪用户行为返回区域内容变化,那么屏蔽完全可以,但是从实际的例子来说可能对站点其他主体内容页面的抓取频次没有多大帮助,因为主体内容与js、css本来就互不相关的两类东西;
C、如果js、css等如果对蜘蛛判断站点的主体内容有影响,如包含较多网址、图片地址、有效资源地址、文字资源等建议不屏蔽,蜘蛛爬取js/css文件的同时可以爬取里面的内容,并且尽量简单处理,不要采用ajax或多重逻辑判断的代码;

经过上述处理后,如果发现有价值的js、css抓取次数还是较多,那么建议使用百度的抓取频次工具,反馈提高下,对一个站点的抓取频次现在可以对百度进行反馈。

点评

http://bbs.zhanzhang.baidu.com/thread-15078-1-1.html 令狐相公栽竹 已经发起过相关讨论,可看下  发表于 2015-1-12 08:50

评分

参与人数 1金币 +1 收起 理由
关键四号3 + 1 冒险岛私服 bbs.mgxsfm.com wm.mgxsfm.com .

查看全部评分

发表于 2015-1-12 08:22:12 | 显示全部楼层
理论上感觉不应该屏蔽掉,因为百度可能会根据css等来判别网站的样式原创性!
如果屏蔽掉了,蜘蛛也不知道网站符合用户体验否,是否垃圾站网页!
大站似乎也没屏蔽js跟css的习惯。。。个人观点,楼下说说看呢!
回复 支持 反对

使用道具 举报

发表于 2015-1-12 08:49:20 | 显示全部楼层
我也赞同楼上的
不屏蔽,可以分析出很多网站信息
回复 支持 反对

使用道具 举报

发表于 2015-1-12 08:50:46 | 显示全部楼层
个人观点:
1、robots全部屏蔽掉不太建议,因为随着网页的发展,资源种类越来越多,蜘蛛需要分析;
2、根据之前看到的百度对网页主体内容模板的专利的简单介绍可以得出下面几个观点:
A、百度能够根据前台页面的链接布局、框架,判断出一个站点的主要页面类型,及各页面适合用户浏览的主体内容;
B、因此如果js、css等如果对蜘蛛判断站点的主体内容没有什么影响,比如遮罩、跟踪用户行为返回区域内容变化,那么屏蔽完全可以,但是从实际的例子来说可能对站点其他主体内容页面的抓取频次没有多大帮助,因为主体内容与js、css本来就互不相关的两类东西;
C、如果js、css等如果对蜘蛛判断站点的主体内容有影响,如包含较多网址、图片地址、有效资源地址、文字资源等建议不屏蔽,蜘蛛爬取js/css文件的同时可以爬取里面的内容,并且尽量简单处理,不要采用ajax或多重逻辑判断的代码;

经过上述处理后,如果发现有价值的js、css抓取次数还是较多,那么建议使用百度的抓取频次工具,反馈提高下,对一个站点的抓取频次现在可以对百度进行反馈。
回复 支持 反对

使用道具 举报

发表于 2015-1-12 08:55:56 | 显示全部楼层
说明蜘蛛的能力在逐步变得更加的强大,从以前的不能识别,到现在能抓取,说明它现在已经逐步都读懂JSS和css  文件,它进站抓取这些文件,说明它想更全面的了解的你网站的结构数据,进一步的分析计算,个人建议还是不要封禁。让度娘这个女人更加了解你这个男人,说不定人家已经爱上你,把你放在它心里首要的位置你呢?
回复 支持 反对

使用道具 举报

发表于 2015-1-12 08:58:24 | 显示全部楼层
本帖最后由 123weiweidong 于 2015-1-12 09:02 编辑

理论上你屏蔽了也没有什么用。

1、搜索引擎需要通过,css,js还原页面成可视化数据。通过遍历网站内部,可分析出各个区块的作用,是内部link,主体内容,外部link等。按照区块的所在位置,还原用户视觉感官。通过观感分析出,此页面用户兴趣点。然后通过用户兴趣点,分析出...再写下去能写个1600字的文章了。

2、有时候搜索引擎会强制爬取css,js,特别是有作弊嫌疑的网站。通过对css,js的分析(第一条中可视化分析),用于判断网站是否作弊。



以后有时间,专门介绍。



回复 支持 反对

使用道具 举报

发表于 2015-1-12 09:24:05 | 显示全部楼层
我觉得百度的玩意啥都不屏蔽最好 以前发现有些人robots屏蔽后台 这不是此地无银三百两嘛
回复 支持 反对

使用道具 举报

发表于 2015-1-12 09:32:37 | 显示全部楼层
一不小心透露了干货.....,结果没人看~!!
回复 支持 反对

使用道具 举报

发表于 2015-1-12 09:35:43 | 显示全部楼层
123weiweidong 发表于 2015-1-12 08:58
理论上你屏蔽了也没有什么用。

1、搜索引擎需要通过,css,js还原页面成可视化数据。通过遍历网站内部,可 ...

不错,学习了·
回复 支持 反对

使用道具 举报

发表于 2015-1-12 09:56:51 | 显示全部楼层
123weiweidong 发表于 2015-1-12 08:58
理论上你屏蔽了也没有什么用。

1、搜索引擎需要通过,css,js还原页面成可视化数据。通过遍历网站内部,可 ...

版主们说的都不错,大赞!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2019-10-21 18:39 , Processed in 0.399759 second(s), 6 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部