首页 理论教育 向量语义相似度计算-短文本表示建模及应用

向量语义相似度计算-短文本表示建模及应用

时间:2023-11-18 理论教育 版权反馈
【摘要】:基础的向量相似度计算方法包括余弦相似度、欧几里得相似度、曼哈顿相似度、杰卡德相似度、皮尔逊相关系数、斯皮尔曼等级相关系数等。余弦相似度重点从方向上区分差异,对绝对数值不敏感,即余弦相似度的重点不在于距离。曼哈顿相似度的起源是在规划为方形建筑区块的城市(曼哈顿)内计算最短的行车路径。需要注意的是,杰卡德相似度适合计算离散型集合的相似度,对于非离散型集合,杰卡德相似度没有考虑评分值对相似度的影响。

向量语义相似度计算-短文本表示建模及应用

在将文本x和文本y分别转换成文本向量img和文本向量img后,通常需要通过计算来衡量这两个文本向量的相似度。基础的向量相似度计算方法包括余弦相似度、欧几里得相似度、曼哈顿相似度、杰卡德相似度、皮尔逊相关系数斯皮尔曼等级相关系数等。

1.余弦相似度

余弦相似度(Cosine Similarity)以文本向量的夹角为考量角度,以文本向量的内积(各对应元素相乘求和)比两个文本向量的模的积为计算结果。余弦相似度重点从方向上区分差异,对绝对数值不敏感,即余弦相似度的重点不在于距离。其计算方式如下:

2.欧几里得相似度

欧几里得相似度(Euclidean Similarity)又称欧氏距离,重点考虑点的语义空间距离,各对应元素做差取平方求和,然后开方。欧几里得相似度能够体现文本向量个体数值的绝对差异,更多用于需要从维度的数值大小中体现差异的分析。欧几里得相似度是最常见的距离计算公式,用于计算多维空间各个点的绝对距离,同类型的还有曼哈顿相似度、闵可夫斯基相似度等。由于其计算基于各维度特征的绝对数值,因此需要保证各维度指标在相同的刻度级别。其计算方式如下:

3.曼哈顿相似度

曼哈顿相似度(Manhattan Similarity)又称曼哈顿距离,对文本向量各对应坐标间做差求绝对值,然后求和。曼哈顿相似度的起源是在规划为方形建筑区块的城市(曼哈顿)内计算最短的行车路径。从某一地点到另一地点,必须经过固定的m个区块,没有其他捷径。其计算方式如下:(www.xing528.com)

4.杰卡德相似度

杰卡德相似度(Jaccard Similarity)又称杰卡德距离,是用来衡量两个集合差异性的一个指标,通过交集除以并集得到。在文本相似度计算场景下,文本向量相似度用共同出现的元素(词语、短语等特征)除以两者的总量。需要注意的是,杰卡德相似度适合计算离散型集合的相似度,对于非离散型集合,杰卡德相似度没有考虑评分值对相似度的影响。其计算方式如下:

5.皮尔逊相关系数

皮尔逊相关系数(Pearson Correlation Coefficient)可以视为余弦相似度的延伸:文本向量各对应元素减去均值平方求和再求文本向量内积针对线性相关情况,皮尔逊相关系数可用于比较因变量自变量间相关性如何。其计算方式如下:

6.斯皮尔曼等级相关系数

斯皮尔曼等级相关系数(Spearman Rank Correlation Coefficient)的计算模式与皮尔逊相关系数类似,不同的是将对于文本向量中的原始数据xi和yi转换成等级数据xi′和yi′,即xi′等级和yi′等级。斯皮尔曼等级相关系数并非考虑原始数据值,而是按照一定方式(通常按照大小)对数据进行排名,取数据的不同排名结果代入皮尔逊相关系数公式。其计算方式如下:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈