首页 理论教育 CADAL数字图书馆的潜在语义分析及相关应用研究

CADAL数字图书馆的潜在语义分析及相关应用研究

时间:2023-10-27 理论教育 版权反馈
【摘要】:向量空间模型关注的是单个词条的出现,但是在信息检索中词条的同现也是重要信息,潜在语义分析就是通过从文本中统计计算词汇抽取和表示词汇的上下文信息的方法。潜在语义分析的基本思想是假设文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,并通过统计计算导出该联系,从而达到削弱词与词之间相关性和简化文本向量的目的。

CADAL数字图书馆的潜在语义分析及相关应用研究

在向量空间模型中,其基本假设(正交假设)词与词之间关系相互独立的这一条件,在实际环境中很难满足。在实际环境中,文本中出现的词往往存在一定的相关性,这在某种程度上会影响向量空间模型计算的结果。同时,这种基于关键字词与词之间关系的文本处理方法,主要依据词频信息,通过统计两个文本共同词汇的数量来计算其相似度。由于自然语言中存在着大量的同义词和多义词现象,词汇本身的恰当使用以及上下文对词义的限定语义影响词汇的准确表达,因而无法分辨自然语言的语义模糊性,如果忽视上下文语境的限制,仅以孤立的关键字来表示文本的内容,势必影响查询结果的准确性和完整性[8]

潜在语义分析(latent semantic analysis,LSA)也称为潜在语义索引(laten tsemantic index,LSI),是一种将文本信息组织成空间语义结构的新模型。向量空间模型关注的是单个词条的出现,但是在信息检索中词条的同现也是重要信息,潜在语义分析就是通过从文本中统计计算词汇抽取和表示词汇的上下文信息的方法。自然语言文本具有一词多义和一义多词的特点,而潜在语义索引可以把同现词条映射到同一维空间上,而非同现词条则被映射到不同的空间上。从这个意义上来讲,即使两个文档间没有共同词条,它们的余弦相似度仍然可能很高[9]

潜在语义分析的基本思想是假设文本中的词与词之间存在某种联系,即存在某种潜在的语义结构,并通过统计计算导出该联系,从而达到削弱词与词之间相关性和简化文本向量的目的。

潜在语义分析使用向量空间模型的方法表示文本集,即文本集:

可用一个m×n的词条-文档矩阵A表示,即

其中,m为文本集中所包含的关键词数;n为文本数,即矩阵中的行代表关键词向量,矩阵中的列代表一个文本向量;aij为非负值,代表关键词在文本集中的权重

同时,为了能够达到降维和突出关键词间关系的目的,潜在语义分析应用了奇异值分解(singularvaluedecomposition,SVD)。经奇异值分解,矩阵A可表示为3个矩阵的乘积:(www.xing528.com)

其中,矩阵U和矩阵V为矩阵A的酉矩阵;Σ为矩阵A的奇异值矩阵。然后,把奇异值矩阵Σ对角线上的奇异值沿对角线从大到小降序排列,保留前面最大的k个奇异值,构建矩阵A的k-秩近似矩阵Ak:

具体如图3-1所示。

图3-1 奇异值分解

潜在语义分析利用潜在的语义结构表示词条和文档,它不再是简单反映词条的出现频率和分布关系,克服了采用传统向量空间表示方法时产生的多义词、同义词和单词依赖的现象,而是强化词条的语义关系,并保持了原始的大部分信息。同时,由于它是基于语义层而不仅仅是词汇层展开分析的,因此在新的语义空间中进行相似度分析,比使用原始的特征向量具有更好的效果。[10]

对于原始的词条-文档矩阵,通过潜在语义分析提取出重要性排序靠前的k维语义空间,这样用低维词条、文档向量代替原始空间向量,以保留原始文本的大部分信息,从而就可以有效地处理大规模的文本库。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈