多元统计中的每一个观测值,都可以看成高维空间的一个点。按照远近程度来聚类需要明确两个概念:点和点之间的距离、类和类之间的距离。
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用p个变量描述,则每个样本点可以看成是p维空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度。
记Ω是样本点集,距离d(·,)·是Ω×Ω→R+的一个函数,满足以下条件:
(1)(正定性)d (x ,y)≥0,x, y∈Ω;d (x ,y)=0⇔x =y ;
(2)(对称性)d (x ,y )=d (y ,x ),x ,y ∈Ω;
(3)(三角不等式)d (x, y)≤d (x ,z )+d (z ,y ),x ,y ,z∈Ω。
点间距离有很多种定义方式,定义两点间的远近,最简单最自然的是欧氏距离,还有一些和距离不同但起同样作用的概念,比如相似性等,两点越相似,相当于它们的距离越近。
类间距离是基于点间距离定义的。一个点组成的类是最基本的类,如果每一类都由一个点组成,那么点间的距离就是类间距离。如果类中包含不止一个点,那么就要确定类间距离。类间距离也有许多种定义的方法,比如两类中最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离,也可以用类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。选择不同的距离,其结果会不同,但一般不会差太多。
常用的点间距离有欧氏距离(Euclidean Distance)、平方欧氏距离(Squared Euclidean Distance)、Chebychev距离、Minkovski距离、绝对距离(Block或Absolute Distance)等。
关于p维点(向量)(x1,…,xp )和(y1,…,yp)之间的距离度量公式有:
(1)欧氏距离(欧几里得距离):
欧氏距离有明显的不足之处。例如当改变测量单位时,测算出的距离数值不同;当数量指标的各分量代表不同质的东西或者分量的差异很大时,欧氏距离常会出现“大数吃小数”的现象。如考察病人时使用指标X=(x, y)′,x表示白细胞数(个/mm3),y表示体温(°C),下面三个样品:
当q=1,2或q→+∞时,则分别得到绝对值距离、欧氏距离、Chebychev距离。(www.xing528.com)
(6)马氏距离(Mahalanobis于1936年提出的):
其中:x,y为来自p维总体Z的样本观测值;Σ为Z的协方差矩阵,实际中Σ往往是不知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响,马氏距离与测量单位无关,但是它夸大了变化微小的变量(或指标)的作用,这是它在实用中的缺点。
在聚类分析中,对于定量变量,最常用的是Minkowski距离;在Minkowski距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的,如果对原坐标系进行平移和旋转变换,则变换后样本点间的距离和变换前完全相同。在采用Minkowski距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离;还应尽可能地避免变量的多重相关性,多重相关性所造成的信息重叠,会片面强调某些变量的重要性。
在实际工作中,变量聚类法的应用也是十分广泛。在系统分析或评估过程中,为避免遗漏某些重要因素,往往在一开始选取指标时,尽可能多地考虑所有的相关因素,而这样做的结果,则是变量过多,变量间的相关度高,给系统分析与建模带来很大的不便。因此,人们常常希望能研究变量间的相似关系,按照变量的相似关系把它们聚合成若干类,进而找出影响系统的主要因素。在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似性度量有两种:夹角余弦(cosine)、Pearson相关系数等。
夹角余弦和Pearson相关系数称为相似系数。各种定义的相似度量的绝对值越接近1,(x1,…,xp )和(y1,…,yp)之间越相关或越相似;相似度量越接近0,则相似性越弱。
假定要确定类Gp和类Gq之间的距离Dpq,用d (xi ,xj)表示属于Gp的点xi和属于Gq的点xj之间的距离,常用的类Gp和类Gq间的距离可以用下面的一系列方法定义:
最短距离法(nearest neighbor or single linkage method):Dpq=mind (xi ,xj),它的直观意义为两个类中最近两点间的距离。如果使用最短距离法来测量类与类之间的距离,即称之为系统聚类法中的最短距离法(又称最近邻法),由Florek等人于1951年和Sneath于1957年引入。
最长距离法(farthest neighbor or complete linkage method):Dpq=maxd (xi ,xj),它的直观意义为两个类中最远两点间的距离。
离差平方和法(sum of squares method):
离差平方和法最初是由Ward在1936年提出,后经Orloci等人1976年发展起来的,故又称为Ward方法。
聚类是使各类之间的距离尽可能的远,而类中各点的距离尽可能的近,且分类结果还要有令人信服的解释。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。