首页 理论教育 隐性语义索引:原理与应用

隐性语义索引:原理与应用

时间:2023-07-02 理论教育 版权反馈
【摘要】:1996年,Dumais等人提出了跨语言检索,其主要思想是通过机器学习方法中的隐性语义索引,将原始的“文档-词汇”矩阵映射到一个较低维度的向量空间中,进而分析文档中存在的隐含语义结构,实现同义词检索和跨语言检索。这种跨语言检索方法将自然语言构成的文档进行结构化处理,形成以词汇为维度的空间,文档就成为词汇空间中的样本点。那么,一个包含语义的文档出现在词汇空间中,并且分布状况也绝对不是随机的,而是服从某种语义结构的。

隐性语义索引:原理与应用

1996年,Dumais等人提出了跨语言检索,其主要思想是通过机器学习方法中的隐性语义索引,将原始的“文档-词汇”矩阵映射到一个较低维度的向量空间中,进而分析文档中存在的隐含语义结构,实现同义词检索和跨语言检索。

这种跨语言检索方法将自然语言构成的文档进行结构化处理,形成以词汇为维度的空间,文档就成为词汇空间中的样本点。那么,一个包含语义的文档出现在词汇空间中,并且分布状况也绝对不是随机的,而是服从某种语义结构的。类似地,也对所有文档中的关键词汇进行结构化处理,将每个词汇视为以文档为维度的空间中的样本点。这种做法体现了一种“文档”和“词汇”之间的共生关系,即:文档是由词汇组成的,同时,词汇又要放到文档中去理解其具体含义。

LSI方法的核心部分是对文档-词汇矩阵进行奇异值分解(Singular Value Decomposition,SVD),设X表示文档-词汇矩阵,则奇异值分解如下式所示:(www.xing528.com)

其中矩阵U,V分别是由矩阵XXT和矩阵XTX的特征向量构成的,矩阵Σ是由矩阵XXT的特征根组成的对角阵。取前r个非零的最大特征根所对应的U,V,Σ,对X进行逼近,可以得到:

X'是秩为r的X在最小二乘意义上的近似矩阵,并且提取了X中的主要结构、消除了数据噪声。在X'对应的子空间中词汇不再是坐标,而是和文档一样是坐标系中的数据点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈