首页 理论教育 聚类分析统计量-距离和相似系数

聚类分析统计量-距离和相似系数

时间:2023-07-24 理论教育 版权反馈
【摘要】:聚类分析是将样本个体或指标变量按其具有的特征进行分类的一种统计方法。在进行聚类分析时,用于描述样品(或指标)间差异或相似程度的统计量称为聚类统计量,主要包括距离和相似系数两类。在聚类分析中,距离的形式有欧氏距离、绝对值距离、明考夫斯基距离、马氏距离和切比雪夫距离等,生物统计中常用的为欧氏距离和绝对值距离。

聚类分析统计量-距离和相似系数

聚类分析是将样本个体或指标变量按其具有的特征进行分类的一种统计方法。在采用聚类分析对样品(或指标)进行分类时,是通过比较样本中各对象间或各指标间的性质和特征,将彼此相近的样本分在一起,而差异较大的分在不同的类。

在进行聚类分析时,用于描述样品(或指标)间差异或相似程度的统计量称为聚类统计量,主要包括距离(Distance)和相似系数(Similarity Coefficient)两类。

(1)距离

距离是描述样本间差异程度的统计量,设从一个样本随机抽取一个容量为n 的样本,每个样品观测m 个变量,且设为观测得到了第i 个样品的第j 个变量的观测值。这样,每个样品就是m 维空间的一个向量,记为Xi,则Xi=(xi1, xi2, …,xim),(i=1,2,…,n)。如果用dij表示第i 个样品Xi与第j 个样品Xj之间的距离,距离聚类满足3 个条件:①当Xi=Xj时,dij=0,即某一样品与其自身的距离为零;②对所有样品Xi与Xj而言,dij≥0 且dij=dji,即不同样品间的距离总是大于等于零;③对所有样品Xi、Xj与Xk而言,dij≤dik+dkj,即1 个样品与其他两个样品之间的距离之和大于或等于该两个样品间的距离。在聚类分析中,距离的形式有欧氏距离、绝对值距离、明考夫斯基距离、马氏距离和切比雪夫距离等,生物统计中常用的为欧氏距离和绝对值距离。(www.xing528.com)

(2)相似系数

相似系数是描述变量之间相似程度的统计量,一般来说,变量Xi与变量Xj间的相似系数Cij应满足以下两个条件:①当Xi=αXj(α 是一个不为零的常数)时,Cij= ±1;②对所有变量Xj和Xj而言,越接近于1,说明变量Xi与变量X 的关系越密切,越接近于0,则说明变量Xi与变量Xj的关系越不密切。在实际应用中,常将相似系数统一为非负数,即用的值来作为相似系数。生物统计中常用的相似系数有相关系数和匹配系数。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈