Salton 等[21]在 1974 年提出了词频−逆文档频率(Term Frequency-Inverse Document Frequency,TF−IDF)算法,此后又论证了TF−IDF算法在信息检索、文本相似度计算等自然语言处理领域的有效性。TF−IDF是一种计算词语权重的算法,可用于评估词语对当前文本(或整个语料库)的重要程度。字词的重要性与其在当前文件中出现的频率成正比,但与它在语料库中出现的频率成反比。TF−IDF的计算公式如下:
式中,TF——词频(Term Frequency);
IDF——逆文档频率(Inverse Document Frequency);
n(w,s)——词语w在文档s中出现的次数;
|{s|w ∈s}|——出现词语w的文档s的个数;
|s|——文档s的总词语数;(www.xing528.com)
|Δ|——总文档数。
TF−IDF的主要思想:如果一个词语在特定的文本中出现的频率越高,即TF(词频)越大,则说明它在区分该文本内容属性方面的能力越强;如果一个词语在文本中出现的范围越广,即IDF(逆文档频率)越小,则说明该词区分文本内容属性的能力越弱。如果某个词(或短语)在一篇文章中出现的TF值高,并且在其他文章中很少出现,则认为该词语具有很好的类别区分能力,适合被选择为文本分类、文本聚类等自然语言处理任务的语义特征。
然而,针对很多自然语言应用(如文本分类问题),仅依靠TF−IDF信息是远远不够的。这主要是因为以下两点:
(1)TF−IDF没有考虑主题或者概念信息,是仅根据出现频率来对语料集进行统计后得出的值,这种“仅考虑浅层字面,未顾全深层语义”的策略并不能很好地提升歧义性强的自然语言处理任务(如多主题领域的情感分类等)的性能。
(2)TF−IDF没有考虑词语的位置、顺序和共现信息,其仅考虑词频与逆文档频率,并不能很好地表征对一个词语的分类能力。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。