首页 理论教育 基于矩阵的词向量化方法及应用

基于矩阵的词向量化方法及应用

时间:2023-11-18 理论教育 版权反馈
【摘要】:基于矩阵的分布表示方法需要构建一个“词上下文”矩阵[25],从矩阵中获取词的表示。在“词上下文”矩阵中,每行对应一个词,每列表示一种不同的上下文,矩阵中的每个元素对应相关词和上下文的共现次数。第2步,确定矩阵中各元素的值。在这些步骤的基础上,基于矩阵的分布表示衍生出了若干方法。例如,经典的潜在语义分析模型使用“词文档”矩阵,将词频逆文档频率作为矩阵元素的值,并通过奇异值分解来得到词的低维向量表示。

基于矩阵的词向量化方法及应用

基于矩阵的分布表示方法需要构建一个“词−上下文”矩阵[25],从矩阵中获取词的表示。在“词−上下文”矩阵中,每行对应一个词,每列表示一种不同的上下文,矩阵中的每个元素对应相关词和上下文的共现次数。在这种表示下,矩阵中的一行就成为对应词的表示,这种表示描述了该词的上下文的分布。由于分布假说认为“上下文相似的词,其语义也相似”,因此在这种表示下,两个词的语义相似度可以直接转化为两个向量的空间距离。

这类方法的实现过程可以分为以下三步。

第1步,选取上下文。最常见的方法有三种:第1种,将词所在的文档作为上下文,形成“词−文档”矩阵;第2种,将词附近上下文中的各词(如上下文窗口中的5个词)作为上下文,形成“词−词”矩阵;第3种,将词附近上下文各词组成的N元词组(N−Gram)作为上下文。在这三种方法中,“词−文档”矩阵非常稀疏;“词−词”矩阵相对较稠密,效果一般好于前者;“词−N元词组”相对“词−词”矩阵保留了词序信息,建模更精确,但由于比前者更稀疏,因此实际效果不一定能超越前者。

第2步,确定矩阵中各元素的值。根据“词−上下文”共现矩阵的定义,其各元素的值应为词与对应的上下文的共现次数。然而,直接使用原始共现次数作为矩阵的值在大多数情况下的效果并不好,因此研究人员提出了多种加权和平滑方法,最常用的有词频−逆文档频率、点互信息(Point-wise Mutual Information,PMI)、直接取对数。(www.xing528.com)

第3步,矩阵分解(可选)。在原始的“词−上下文”矩阵中,每个词表示为一个非常高维(维度是不同上下文的总个数)且非常稀疏的向量,使用降维技术可以将这一高维稀疏向量压缩成低维稠密向量。降维技术虽然可以减少噪声带来的影响,但也可能损失一部分信息。最常用的分解技术有奇异值分解(Singular Value Decomposition,SVD)、非负矩阵分解(Nonnegative Matrix Factorization,NMF)、典型关联分析(Canonical Correlation Analysis,CCA)、Hellinger PCA(HPCA)等。

在这些步骤的基础上,基于矩阵的分布表示衍生出了若干方法。例如,经典的潜在语义分析(Latent Semantic Analysis,LSA)模型使用“词−文档”矩阵,将词频−逆文档频率作为矩阵元素的值,并通过奇异值分解(SVD)来得到词的低维向量表示。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈