请选择 进入手机版 | 继续访问电脑版
查看: 34307|回复: 84

SEO优化—网站收录

  [复制链接]
发表于 2015-2-13 22:17:00 | 显示全部楼层 |阅读模式
 楼主| 发表于 2015-2-13 22:17:22 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:21 编辑

收录和权重之间的关系
一、概括:
1、收录能促进网站权重提升
2、收录多并不一定代表权重高
3、权重高的网站收录一定非常好,但不代表收录一定会很高。例如一些企业站做了好几年,排名非常好权重可能达到3或者4,但是收录只有几百。因为企业站只有几百个页面,再多也没有收录,但是能保证的是网站大部分内容会被收录。
权重高的站点信用度也高,收录不仅多而且收录非常快。例如:新浪、搜狐、网易等这样的网站。

二、细述:
1、收录量和收录率是作为站点内容更新频率的衡量标准,而内容更新仅仅只是权重表现的一部分。影响收录的因素有很多,比如站点架构、访问速度、内容质量。当然,站点权重反过来也会影响收录。笔者的站点基本上了首页的内容都会被收录到,但是涉及到栏目列表页,蜘蛛基本上是不关顾的。基于这种情况,我考虑通过改版首页、多栏目细分,尽量减少站点栏目层数的做法,将蜘蛛引导到列表页增加收录。

2、收录了也会被删除。什么样的内容会被删除呢?重复、关键字堆砌的页面。搜索引擎内容比对的过程可能需要好几天,甚至好几周时间才能完成。这次期间可能会把收录的内容放出来,也可能不放。但是暂时的秒收并不能代表什么。复制粘贴的站长时代已经过去了,网站内容起码应该伪原创,或者通过专题、栏目重组进行加工和整理,老酒换新瓶。这样才能避免收录的页面被搜索引擎删除。

3、收录不等于流量,稳定才是权重。无论是热门关键字还是长尾关键字,稳定才是关键。切莫浮躁,操之过急。做好基本功,建立起权重壁垒。不少收录上百万的站点,流量也有少的可怜的。收录并不能代表流量,这也是跟站点类型有关。资讯类的肯定收录多,产品类的收录肯定少,这不具备可比性,因为收入模式可能有差别。

4、无论是收录还是流量,一切都应该回到事物的本质。网站为流量,流量为现金。做资讯卖流量,做产品卖产品,都必须转化为现金。无论是什么站点,都是殊途同归。从结果推导过程,看你选择什么样的路。所以,不要太看重收录,关键看结果。

总结:
网站权重就像是一个复杂的生态系统,收录就像水一样。生态圈里没有水是不行的,但是生态圈并不是仅仅只有水。只有生态圈完整、有序,生态圈才能正常运转。

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-13 22:17:42 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:22 编辑

排名和收录有没有关系
先来讲讲2个定义
收录——指搜索引擎把网站索引到自己的数据库中,常见的搜索引擎收录有百度收录、谷歌收录、搜狗收录、有道收录、雅虎收录、夸搜收录、泽许收录等。用户可以通过搜索引擎提交入口提交网站吸引蜘蛛抓取页面,或通过外部链接吸引搜索引擎访问网站页面,当搜索引擎认为页面符合收录标准时,就会收录于网站页面。
排名——它是根据搜索引擎算法而获得排列结果,是一种比较通俗的叫法。当我们搜索某个关键词时,搜索引擎根据对与该关键词相关的网页分析的结果进行排列,然后把按算法认为某页面最符合(或说内容相关的)对该关键词的解释的页面展示在最前的位置。当然,这些都是你还没进行检索时就已经处理好的数据结果,搜索引擎只是对号入座似的把每条数据展示在你面前。

总结:排名和收录没有直接的关系,但是收录能间接促进关键词排名。

1、网站收录越多信用度就会越高,信用度就像一个结构对于某一个个人的认可一样,信用度越高,那么其他事情就好办。

2、网站的信用度越高、权重就会慢慢增加。这里说的是谷歌的权重,百度也会给网页划分等级,而只是这个等级没有表现在数字上。用站长工具查询的百度权重是第三方的数据,百度并不认可。

3、网站的权重会影响关键词排名,一般来说网站权重越高关键词排名会更加容易。

这也就是为什么收录在一定程度上能促进关键词排名。但是有些网站例外,比如一些网站大量更新垃圾内容,短时间内因为更新频率较高所以收录会很多,但是随着百度的更新,垃圾内容会被慢慢删除。

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-13 22:18:01 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:22 编辑

百度不收录内页的原因
新站内页收录时间会长一些,大概在首页收录后半个月到一个月开始收录内容,所以不讨论新站的内页收录。而如果是超过3个月的网站不收录内页主要有以下几个情况:

1、内页质量很低
内容质量非常低,根本没有阅读价值。文章排版很乱、字体大小和颜色没有统一,文章内容里面还穿插一些没必要的锚文字链接以及一些广告链接。
(1)首先要把上面提到的项目全部修改,并且给文章增加可读性以及附加价值。
(2)分析长尾词需求,布局内容,从需求上解决用户的问题
(3)丰富网页内容

2、样板文字太多,页面相似度太大
样板文字就是指那些大部分页面都会有的内容,比如竖导航、推荐文章、联系我们、上一篇下一篇等等。这些文字越多,页面之间的相似度就越大。而有的页面除了这些内容就只剩下一个产品图片,这样的页面相似度100%。搜索引擎为什么要收录那么多一模一样的内容呢?所以一定要减少样板文字,增加每个页面的质量。

3、内页权重不够
内页权重不够或者网站权重不够。每一个网页被收录都需要在权重值达到一定值以后才会被搜索引擎收录,如果网站权重不够就不能传递给网页不错的权重。解决办法就是多做一些高权重外链或者给栏目页、内页做一些友情链接和外链。

4、网站信用度低
新站的信用度主要来自于更新频率和内容质量,老站的信用度来自于内容质量,所以去做内容。内容质量很好,用户乐意点击,搜索引擎怎么会不收录?

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-13 22:18:25 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:23 编辑

收录以后要多久才能有排名?
网站收录后不一定有排名,但是没有收录就肯定没有排名。影响关键词排名的因素有100多种,而绝对不是收录后多长时间就可以有排名的问题。而如果在其他条件都可以的情况下还有必要讨论排名的时间吗?
所以结果是:网站关键词排名不是被收录的时间长短决定的,这甚至不能算在100多个因素中的任何一个。决定关键词排名的因素是:网页内容的质量、URL设置、站内设置、内链、外链、推广、关键词竞争度、空间稳定因素、标题、关键词、描述设置是否合理、网站的权重等等。

点评

回答非常精准  发表于 2016-5-5 17:44
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2015-2-13 22:18:41 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:23 编辑

如何让外链快速收录
外链的收录基本难以控制,因为外链是发布在别人网站的内容,并且更加不会去为了外链的收录而去给外链做外链,因为这会浪费大量的时间。但有些东西可以尽量避免,比如收录不好的平台、人气很糟糕的平台等等。

1、平台
尽量选择收录快、权重高、快照更新比较及时的平台。权重和快照度可以通过站长工具查询,查看平台收录是否很快可以通过查询当天或者前一天平台发布的内容有没有被收录决定。如果大部分都被收录了,那么说明平台收录非常靠谱。

2、内容质量
就算不是站内的文章依然要注重质量,因为文章是发给用户看的,而没有可读性的内容用户不会去阅读。相反如果内容质量非常高,用户点击非常多那么同样能给网站带来用户和链接点击权重。

3、论坛帖子要多回帖顶贴
如果是论坛应该尽量打造热门帖子,热门帖子收录更快并且带的链接属于高质量外链,而热门帖子被收录的时间也会更长。打造热门帖子的重点在于:
(1)标题要吸引人
(2)内容要给力而且不能太长
(3)多回复别人的回帖

4、平台商铺要多更新
如果是产品类的网站可以到平台商铺发信息,但是平台商铺必须要每天不断更新,这样商铺内容收录才会越快。

5、推广
如果内容确实非常好,比如在百度站长社区发表了一篇SEO文章,或者投稿了一篇高质量文章。可以把这些文章分享出来让大家来阅读,阅读越多说明质量越好,收录越快,链接传递的权重越高。

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-13 22:18:58 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:24 编辑

收录和索引量的区别
网站收录:指收索引擎记录的网站所拥有的网页的内容,只有被收录的内容才能参与到用户的搜索排序中。网站收录的内容都被记录在搜索引擎数据库中,参与关键词排名。

网站索引量:站点中有多少页面可以作为搜索候选结果,也就是蜘蛛抓取了网站的哪些页面并认可可以进入搜索引擎数据库被收录。

站点内容页面需要经过搜索引擎的抓取和层层筛选后,方可在搜索结果中展现给用户。页面通过系统筛选,并被作为搜索候选结果的过程,即为建立索引。
目前site语法的数值是索引量估算值,比较不准。

网站收录查询:采用site:域名 的形式在百度搜索框中查询。
索引量查询:网站验证了百度站长平台,就可以在里面看到网站的索引量。

总结:网站收录是网站最后展示给用户的内容,而网站索引量是在筛选之前某个步骤的蜘蛛抓取结果。

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-13 22:19:15 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:25 编辑

影响网站收录的18大因素
网站的收录是由空间、网站、内容、抓取量、页面质量决定的。
搜索引擎蜘蛛爬行的过程是这样的,首先检测网站的robots.txt文件,确定哪些内容禁止抓取,哪些内容允许抓取等信息,确定robots.txt允许爬取之后,进入我们网站的首页,然后通过首页的链接爬取到我们网站中的内容页或者栏目页,之后再通过栏目页到达我们的文章页。
既然已经知道了搜索引擎抓取我们网站的流程,那么我们接下来就要为您分析影响搜索引擎抓取的因素了,首先

1、网站速度的影响
机房问题、dns问题、cdn加速问题、服务器带宽、服务器硬件、操作系统、服务器软件以及服务器所安装的程序,这些都有可能影响我们网站的打开的速度。

2、nofollow标签的合理使用
nofollow是一个HTML标签的属性值。这个标签的意义是告诉搜索引擎”不要追踪此网页上的链接”或”不要追踪此特定链接。那么我们所要做的就是,用nofollow来屏蔽掉网站页面重复出现的链接以及对seo没有很高价值的页面,以减少网站权重的分散,并且可以减少搜索引擎重复抓取网站内每个页面的重复链接,以提高搜索引擎抓取效率。

3、网站硬盘问题
如在服务器里面安装多个虚拟机,导致硬盘转速变慢,有时会导致搜索引擎打不开网站。

4、返回码问题
比如同一个链接返回不同的返回码,又或者404页面返回200等

5、安全软件问题
比如开启了防火墙规则、屏蔽了网站端口、开启防采集规则、开启防攻击规则等,导致了搜索引擎同一时间由于大量访问网站,而导致被安全软件拦截。

6、外链问题
我们发外链的目的有两个,一个是吸引搜索引擎来抓取我们网站(引蜘蛛)另外一个就是提升网站的排名。外链首先要保证不能单纯的指向首页,要把外链做到指向栏目页、文章页的都有一些。
另外做外链的时候一定要考虑一下几个因素:多样性、集中性、平衡性、相关性、准确性、高质量性、人文性等。

7、网站的权重
网站权重是搜索引擎对这个网站信任度的一个体现,如果网站的权重够高,那么搜索引擎抓取的也相应的会比较及时,反之则是网站权重低,搜索引擎对其信任度不高,也许蜘蛛会很久来访问网站一次,相应的抓取频率就很低了。

8、网站地图
网站地图是将网站的所有连接,最直观的反应给搜索引擎,可以提高搜素引擎的抓取效率,同时也为增加网站的收录提供了良好的帮助。

9、推广
网站前期的推广也非常重要,前期推广包含QQ群推广、QQ空间推广、邮件推广、软文推广、论坛外链推广、平台信息推广。所有能引导来用户点击的推广都可以,当然一定要是良性的推广。因为有点击就会给予点击权重,而网页是具有一定权重以后才会被收录。

10、pr
pr值是谷歌使用的衡量网站质量的一套标准,但是pr对于百度seo来说作用是非常小的,只是能够给我们提供一个参考价值,但是相对的来说pr的价值并不是很大。

11、url静态化
URL静态化的目的是有利于网站的排名,虽然现在搜索引擎已经可以收录动态地址,但是在在排名上静态化的页面比动态页面更有优势, 并且URL静态化将更有利于增加搜索引擎的信任度。但是,如果网站真的做不了静态化的话,那就尽量使用短的url并且url中尽量少的使用动态参数。

12、url的唯一性
网站中的同一个页面,只对应一个url地址;如果网站上多种url都能访问到同样的内容的话,那么就会出现以下问题:
a、搜索引擎会选一种url为标准,可能会和正版不同
b、用户可能为同一网页的不同url做推荐,多种url形式分散了该网页的权重

建议:
a、如果你的网站上已经存在多种url形式,建议按以下方式来处理:在系统中只使用正常形式url,不让用户接触到非正常形式的url
b、不把session id、统计代码等不必要的内容放在url中
c、不同形式的url,301永久跳转到正常形式防止用户输错而启用的备用域名.301永久跳转到主域名
d、使用robots.txt禁止百度蜘蛛抓取你不想向用户展示的形式

13、ulr带关键词
尽量在url中带上网站的关键词(拼音),这样会在排名上面稍微的会占据一点因素,要知道百度是中文搜索引擎,对拼音的分析能力是很强大的。

14、代码因素
网站的代码要符合w3c的标准,结构层、表现层、行为层标签都应该完整,建议使用开源程序。如:我的博客使用的wordpress程序。

15、head信息的正确性
网站的三大标签:标题标签(title)、关键词标签(keywords)、描述标签(description)

16、内容的原创性
前面有说到原创的内容一定会被收录,只不过是时间的问题而已,不论哪个搜素引擎,都是喜欢原创的内容,网站内容的原创性直接关系到搜索引擎对你网站的信任度,信任度又可以通过权重这个参考来反应出来,所以,网站内容的原创性是网站优化的重中之重。

17、内容的重复度
转载、或者是采集的文章,页面的文字、页面都和之前页面一样,具有非常高的重复度,那么百度就会计算你和其他网站内容的重复度,搜索引擎是一个喜新厌旧的家伙,如果每次你所发的内容重复度都很高的话,那么渐渐地蜘蛛就会失去对你网站的兴趣。

18、网站的结构
网站结构混乱,内链系统杂乱无章也会导致收录缓慢。比如不同栏目的内容互相做链接,而有的内容链接很多另一些内页链接很少。网站的层次也是一个原因,对于一般的企业站点三层已经足够放置所有的内容,而如果层次太深会影响内页的收录。

总结:
影响收录的因素大概有这么几个因素:站内站外、技术性因素、文章的因素,这些如果够做好的话,基本上来说,网站的收录就不是个事。

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-13 22:19:34 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:26 编辑

网站收录不稳定是什么原因
网站收录不稳定的因素主要有服务器问题和网站自身内容的问题,服务器问题会导致网站经常打不开,而网站内容问题会导致搜索引擎收录又删除网站内容。

1、新站收录不稳定
新站由于权重低、搜索引擎给予的信用度也非常低。所以在网站收录前期可能会收录了又删除,如此反复才会慢慢稳定下来。新站不管是内容质量高还是低都有可能出现这样的情况,而如果质量非常低就有可能很长时间不被收录或者收录后网站被降权。

2、采集内容
网站采集了大量的内容,前期因为网站具有一定的权重并且更新频率高,搜索引擎会收录这些内容。但是当下一次更新时一旦搜索引擎发现这些内容很垃圾就会删除内容。这也就是为什么很多人发现自己的网站内容很差以后不断的修改,纵使有几百万个页面。

3、空间不稳定
空间不稳定或者打开速度慢会导致用户有时候打不开或者蜘蛛来抓取的时候无法抓取到内容,如此几次就会产生大量的死链接。死链接的作用就是蜘蛛对你的网站非常不信任,所以就会放弃收录内容。
解决的办法就是换一个稳定的空间,慢慢的蜘蛛就会来收录了。

4、改版产生死链接
网站总是不断的小范围改版,总是产生一些死链接。如果这些页面内容占据到网站内容的一定比例就会影响到整站的收录,所以不建议网站经常改版。如果要微调也不建议产生大量的死链接,把不需要的内容隐藏就可以了。

5、算法更新
比如13年的算法更新导致很多站点收录急剧下滑,甚至到收录为1的地步(降权)。如果算法在不断的变动,收录也会变动。如果是算法更新,收录就会有可能下降很多。
解决办法是不要做一些违规的优化,13年的算法更新导致大量站点收录下降就是因为使用了一些作弊的优化方法。

6、百度数据问题
有时候百度数据会出现明显错误,比如快照回到还没建站的时间。如果是因为非正常原因导致收录变少,不用担心过几天就会恢复了。

7、查询工具问题
作为SEOer每天查询几次网站数据是很正常的事情,但是查询工具也不是万能的,有时候也会有一点点差距。例如一个网站的收录上一次查询是1090,再查询一下就是991。其实这个数据差距是非常小的,你再刷新一下可能又是1090了。这不是收录不稳定的原因,是查询工具的原因,遇到这种情况一定要淡定处理。

回复 支持 0 反对 1

使用道具 举报

 楼主| 发表于 2015-2-13 22:19:56 | 显示全部楼层
本帖最后由 lo9ngzai 于 2015-2-13 22:26 编辑

新网站不收录怎么办?
2012年以后百度对于新站的收录更加严格了,收录时间从1-3天变成了一周以内,有的甚至半个月才收录。原因主要有以下几点:

1、域名原因
域名问题主要是域名注册之前、或者老域名以及跟周围域名的关系。
1)相似域名做内容相同的网站。比如www.***.comwww.***.net以及www.***.cn,域名相同做的内容也差不多。如果是这样最后做的网站难以被收录,因为搜索引擎会认为是站群作弊行为,解决办法就是换一个不一样的域名。
2)域名被K过。买的老域名或者注册的域名之前被K过,再一次做站收录时间会比较长。
3)域名做过站。如果说你的域名在以前做过网站,收录也会很不理想。因为你在之前做过网站,那么就会产生很多的路径与链接,假如说你的网站又被蜘蛛抓取过,那现在你又把重新做了个网站,之前网站的那些链接就都无法访问,成了死链接了。大量的死链接的产生便会导致你网站的信用度下降,便会导致网站不收录。

2、内容原因
1)内容质量很差、或者复制采集别人网站的内容
2)网站内容本来不多,上线后很少更新网站内容

3、空间原因
空间不稳定,经常打不开或者空间经常被黑客攻击等,很容易导致蜘蛛抓取时产生死链接。而大量的死链接会降低网站的信任度,新站的信用度本来很低,这样就更加难以收录了。

4、外链原因
没有外链或者外链很少,新站的信用度依靠外链和内容建立。外链能传递给网站权重,就像社会对于一个新人的认可。如果外链很少就等于认可很少,那么搜索引擎就难以接受这个网站了

5、网站设置原因
站内设置主要考验一个SEOer的基本功,基本能做得好,站内设置肯定要好。
1404页面
2)内链混乱
3)架构混乱,非扁平或者树形
4)新站上线链接导出过多
5robots.txt 检查 ,看是否屏蔽
6)是否生成sitemap

6、采用作弊行为
比如关键词堆砌、插入关键词、关键词加粗、回链、隐藏链接、盲目内链等等这些作弊行为都会导致网站不被收录。

7、蜘蛛可读
有的网站可读性非常低。在网站里面加了大量的JSflash、图片等这些百度蜘蛛读取不了的东西。如果蜘蛛不知道你的网站说的是什么,所表达的是什么。即使你的网站再漂亮,收录也只是个浮云!!

8、规范简单的URL
当你的路径动态参数过多,同样也会导致蜘蛛无法正常爬去你的页面,这种情况下建议把网站生成伪静态或者纯静态,以便蜘蛛的爬去。当然还有需要注意的一点就是当你的网站已经上线了的话,就不要去改他的路径了。因为你一旦改了就会导致死链接和重复路径。最好是在网站还没上线前就该做好这一点。

回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2020-12-4 23:36 , Processed in 0.301825 second(s), 16 queries .

Powered by Discuz! X3.2

© 2001-2011 Comsenz Inc.

返回顶部