首页 理论教育 多元统计分析中的聚类分析解读

多元统计分析中的聚类分析解读

时间:2023-10-30 理论教育 版权反馈
【摘要】:在当代大多数统计分析方法中,聚类分析是常用的一种。因此,类可以看作数据集的“隐性”分类,聚类分析旨在使用聚类算法来发现数据集的未知分组或隐含的结构信息。如欧氏距离有十分明确的空间距离概念,马氏距离有消除量纲影响的作用。如在进行聚类分析前早已对变量作了标准化处理,则通常可采用欧氏距离。

多元统计分析中的聚类分析解读

在当代大多数统计分析方法中,聚类分析是常用的一种。聚类分析主要用于对事物的类别不确定,有的甚至分类前连总共有几类都不知道,也就是研究者在没有先验知识的情况下,对事物进行一个合理分类的方法(郭志刚,2015)。

聚类分析认为各事物具有不同程度的相似性,按照相似性归成若干类别(cluster),同一个种别内的事物之间有高相似度,而不同种别之间有较大的差异性。因此,类可以看作数据集的“隐性”分类,聚类分析旨在使用聚类算法来发现数据集的未知分组或隐含的结构信息。

聚类分析相似性的度量,聚类分析要领是根据对象的数据特点,把相似的对象倾向于分在同一类中,把不相似的对象倾向于分在不同类中。度量相似性的统计量有两种:①距离,将n个样本中的每一个样本看作p维空间的一个点,在p维空间中定义距离,距离较近的点归为一类。②相似系数,根据这个统计量将对照相似的变量归为一类。在实际应用的问题中,对样品聚类常用距离,对变量聚类常用相似系数。下面将详细介绍这两种度量相似性的统计量。

(1)距离,第i个与第j个样本之间距离用dij来表示,dij一般应在这一前提条件下:dij=0,即样本自身间的距离为零;dij≥0,即距离值不为负值;dij=dji,即两点间的距离与方向无关;dij≤dik+dkj,即直线距离最近。一般的统计分析中,我们最常用的距离有欧氏距离、明氏距离和马氏距离。(www.xing528.com)

距离选择的基本原则:第一,要思量所选择的距离公式在现实应用中是否有明确的意义。如欧氏距离有十分明确的空间距离概念,马氏距离有消除量纲影响的作用。第二,要综合考量对样本观测数据的预处理和将要采取的聚类分析方法。如在进行聚类分析前早已对变量作了标准化处理,则通常可采用欧氏距离。第三,应根据研究对象的特征差异作出具体分折。现实中,聚类分析前可试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,来确定最符合的距离测度方法。

(2)相似系数,变量间的相似性,可以从它们的“方向趋同性”或“相关性”来考察。相似系数应满足下列条件:|Sij|≤1,即相似系数的大小在-1与l之间;Sij=Sji,即相似系数的大小与方向无关;Sij=±1⇔xi=axj,a≠0,即相似系数为1,则两变量成比例关系;Sij越接近1,变量xi与变量xj的关系越密切,性质越相近。一般的统计分析中,我们常用的相似系数有夹角余弦相关系数,适用于等级变量的相关系数有Spearman秩相关系数和Kendall秩相关系数,对于分类变量,其相似程度常用列联系数表示。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈