请选择 进入手机版 | 继续访问电脑版
查看: 9771|回复: 0

[网站推广] 【SEO每周一贴】我眼中的TF-IDF算法

[复制链接]
发表于 2013-11-6 20:26:19 | 显示全部楼层 |阅读模式
本帖最后由 焦大seo 于 2013-11-8 17:42 编辑

写在前面:不久前和人交流谈到这个社区,很多人觉得太水了,所以我个人想法会在本版块每周发一贴,一般都是我以前写的老帖子,不代表现在的观点和认知,仅仅是抛砖引玉。同时焦大也呼吁更多的同行分享新的seo知识和经验,如果不能发帖可以发我邮箱,本人可以代为转发,联系email:651207990@qq.com

我已经在seo培训联盟博客说了学seo研究算法是愚蠢的行为,但是很多人仍旧来问se的算法问题,其中最多的就是问TF-IDF算法,为了能够让大家加深对这个的问题的认知,我因此就深度解析下这个算法的一些问题。
第一点,TF-idf是什么?
TF和IDF是两个不同的概念,tf通过一个文档内词项的重复次数来表示这个词项在所有词项中的重要度,而另一个idf则是一个词在所有文档中出现次数表示这个词项的重要程度,出现的越多也就是常用词,由于主题性不强重复越多重要度越低。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
这个百科的解释加上我自己的描述,不知道大家是否很清楚了?总之TF-IDF是通过一定统计意义来表示词项的重要度的。seo为何很关注他呢,因为他可能影响检索词和搜索词的相关性,进而影响排名。
第二点,TF-IDF算法是解决什么的,能起到多大的作用?
其实我们既然研究了这个算法,就不能不去了解这个算法是解决什么的,其实我刚才也说了,它主要解决的就是一个文档中词项权重的问题(很多人都知道这个算法影响排名,却不知道这个算法为何能影响排名的)。那么我们可以再问下,影响词项权重的因素有多少呢?目测大约也就5、6个吧(但是我们都知道几个呢?),TF-IDF在词项中占据什么地位呢?重要度或许可以排在第三位、第四位的样子(也不是最主要的因素嘛)。而且我一直说的,如果你真的要研究算法,就不仅要研究算法是什么,也要考虑下算法的特征和算法特征的处理,因为他们都影响最终的结果,比如这个TF-IDF的算法。
第三点,TF-IDF的算法特征是什么
这是人们很少关注的一点,算法的特征和算法特征的处理之所以重要,是因为凡是算法都会控制因素的影响,或者说进行平滑性处理。这个也不例外,很多人没有注意到这个影响,或者对这个有了过激的思想,那么就会对很多的seo细节耿耿于怀,却不得其解。想学会这点,我觉得那个谷歌的黑板报很多讲算法的时候都说到了,很多实际应用模型和理论模型大多都有一定的差距,这就是现实。
第四点,TF-IDF算法再向上,问题的来源是什么,处于检索的什么地位?
其实,我一直推荐的是跳出算法禁锢,放在更长远的看待这个问题,比如TF-IDF要解决的问题的根源是什么,这个问题可以在检索原理中处于什么样的一个地位,会不会随着时间而改变……。只要你向上思考,慢慢更多的seo浮出来,那个神马的TF-IDF也可以慢慢地放弃了。
第五点,算法之外
TF-IDF是用来研究词项权重的,早期用来进行相关性判断,但是也并不一定一成不变的,比如BM25算法在很多方面都比他更加具有优势。但是随着检索技术的进步,比如语义分析等技术的发展,这个算法也会被渐渐限制了起作用的范围和影响力。这也不能不说研究算法的悲剧。而且,我一直说的是,我们完全可以跳出这个范畴,从问题本身出发去思考问题,或者更深层的站在检索的角度观察这个问题的意义,观察解决这个问题可行性,观察结果和我们所想的差距……嘎嘎,不能再深入……
PS:我最近一直四处飘,也在发力学些新东西,所以时间不是很充裕,你所看到的博客我几乎都是有所想法的时候,花费了大约30多分钟一气呵成的,难免有很多瑕疵,万勿见怪。我会继续更新seo思维进化论系列,里面虽然没有讲技术,但是我觉得还是有些东西值得seoer去思考下的,下面我也打算写一些seo入门的东西,希望能给一些新人有些帮助。我所做的一切,最主要的目的还是希望大家能冷静地看待seo,慢慢地回归正途。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|Archiver|Baidu Inc.

GMT+8, 2024-3-28 16:12 , Processed in 0.314674 second(s), 16 queries .

返回顶部