向量空间模型由Salton等[21]提出,并被成功应用到Smart系统中。向量空间模型当前被广泛应用于信息检索、信息过滤、信息撷取和文本挖掘等领域。向量空间模型的主要原理:将每个文本转化为一个向量,文本中的每个词语对应向量中的一个维度,每个维度的值表示相应的词项在文本中的权值,权值可以通过词频−逆文档频率等算法计算得到。假设有文本集合,每个文本si可以定义成,其中wj表示si中互不相同的词项。通过向量空间模型能够将每个文本转换成一个|si|维特征向量,将该特征向量定义成,其中weight(wj)表示文本si的第j个词项在文本中的权值。对文本集合Δ进行处理之后,可以得到Δ的特征向量集合。
向量空间模型将复杂的文本进行向量化处理,将其转化成由特征项和权值组成的多维向量,从而将对文本的一系列操作转化成对向量的操作。由此衍生出自然语言处理领域经典的词袋(Bag-of-Word,BOW)模型、独热(One-Hot)表示方法等。向量空间模型虽然简单易懂,但是也存在一些缺点:
(1)无法分析处理文本中词项间的语义关系,无法保留词语之间的顺序和依存关系等信息,导致文本中重要信息的丢失。
(2)在处理大量短文本时,其文本长度短、信息碎片化的特点会导致特征向量高维稀疏性问题。(www.xing528.com)
以传统独热表示方法为例,作为早期的词表示方法之一,每个词被表示为一个长度为词典的大小的向量,向量只有该词对应维度上的数据为1,其余维度的数据全为0。独热表示方法仅将词语符号化,不包含任何语义信息,具有局限性,体现在以下两方面:
(1)严重的数据稀疏问题。通常词典很大,所有词的向量组成的矩阵是一个庞大的稀疏矩阵,在各类计算任务中严重浪费存储和计算资源,并且庞大的特征维数极易造成过拟合,影响任务效果。
(2)不能表示词的语义特征。由于向量中唯一的非零元素仅记录词的索引位置特征,没有记录词的语义信息,因此不能体现词间相似性和词间语义关联性等语义层次的信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。