Tel:159 0061 9600
网站
首页
优化
技巧
优化
方案
SEO
技术
优化
工具
SEO
案例
公司
简介
联系
我们
当前位置:首页 >> SEO技术 >> 网站布局的TF-IDF算法

网站布局的TF-IDF算法

更新时间:2019/9/2 10:11:50 关注度:69294次

  网站布局之TF-IDF算法,说白了在我理解来,这个算法即是经过一个的数学计算,来肯定每个词在文章中的权重,从而得到一篇文章的对于词的带权重的向量,晓得了这个以后就好办了,之后什么文章主要字提取、概述、差异的文章之前的类似性对照都引刃而解了。

百度排名

  求一个词的权重就用到TF-IDF算法,原本TF-IDF算法是分为TF(Term Frequency,缩写为TF)与IDF(Inverse Document Frequency,缩写为IDF)的计算。

  提及来也简单,TF即是这个词在文章中的词频,出现的次数比上文章的总次数或许出现次数最高的词的个数。而IDF则是表示TF-IDF算法分母上加一是为了预防分母为零。

百度排名

  这个数学的表明式也符合道理,假如主要字(除掉“的”、“为了”之类的去除字)在越多的文档中出现,它在本篇文章中的权重天然就低了,举个简单的例子:给你一个主要字计算机,你一点也不晓得这货表明的意思,因为(从这个算法角度讲)它在太多的文章中出现,可是假如你的主要字为0day就不相同了,包括它的文档数远远小于包括主要字“计算机”的文档数。由此,假如在同一篇文章里,假如“0day”与“计算机”的TF(词频)相同,IDF就不妨保证“0day”的权重较高了。

  基本的算法即是如此了,原本很简单,可是这个算法是基于如此一个条件,主要词越重要,出现的频率越高。同时忽略了词出现位置的影响,所以这个算法存在纰漏。

电话咨询 短信咨询 查看地图 在线咨询