【摘要】:向量空间模型是目前最常用的一种文本表示模型。在传统的向量空间模型中,文档集中的文档被抽选为若干特征项,并表示成文档向量,这样会造成两个缺陷:一是向量空间模型假设所有特征项是独立无关的,但实际上可能存在两个特征项是同义的,如“计算机”和“电脑”字面上有很大差异,表示的含义却很相近;二是特征项的数目有时会过多,造成向量空间维度很高,致使计算复杂度大大提高。
向量空间模型(vector space model,VSM)是目前最常用的一种文本表示模型。在该模型中,它把对文本内容的处理简化为向量空间中的向量运算,并且以空间上的相似度表达语义的相似度。
向量空间模型基于这样一个关键假设,即文章中词条出现的顺序是无关紧要的,它们对文档的类别所起的作用是相互独立的,因此可以把文档看作一系列无序词条的集合。该模型中,文本空间由一组正交词条向量所组成的向量空间表示[7]。每个文档d可以映射到该空间中的一个泛化特征向量,即
其中,ti为词条项,可以是文档d中所有出现的字、词或词组;w i(d)为ti在文档d中的权值,可由词频代替。词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,文本中词频较高的词汇代表性越强;相对词频为归一化的词频。一般可定义为词条ti在文档d中出现频率tf i(d)的函数,即
函数φ一般采用TF-IDF函数,即(www.xing528.com)
其中,N为所有文档的数目;ni为含有词条t i的文档数目。
两个文档间的相似度,可以用其向量相似度来表示,文本处理中最常用的相似度度量方式之一是余弦距离。
在传统的向量空间模型中,文档集中的文档被抽选为若干特征项,并表示成文档向量,这样会造成两个缺陷:一是向量空间模型假设所有特征项是独立无关的,但实际上可能存在两个特征项是同义的,如“计算机”和“电脑”字面上有很大差异,表示的含义却很相近;二是特征项的数目有时会过多,造成向量空间维度很高,致使计算复杂度大大提高。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。