首页 理论教育 基于聚类分析的综合竞争力评价方法

基于聚类分析的综合竞争力评价方法

时间:2023-08-26 理论教育 版权反馈
【摘要】:将事物按照一定原则进行类型划分的过程就是聚类分析。聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下自动进行分类。聚类分析使用的方法与参数不同,往往会得出不同的分类结论。点击“继续”按钮,返回“K均值聚类分析”对话框。图4-8K均值聚类分析结果步骤3:K均值聚类分析结果分析。

基于聚类分析的综合竞争力评价方法

分类学是科学研究的重要方法之一,数值分类学有着极为广泛的应用。人们认识某类事物时,往往先对事物的各个对象进行分类,以便寻找不同类型的差异。将事物按照一定原则进行类型划分的过程就是聚类分析。聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下自动进行分类。因而,聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析使用的方法与参数不同,往往会得出不同的分类结论。

下面结合冀中南数据主要介绍PASW Statistics 18分类分析(Classify)中的逐步聚类分析(K-Means Cluster Analysis)和系统聚类分析(Hierarchical Cluster Analysis)两种聚类分析方法。

1)采用逐步聚类分析方法进行冀中南区域竞争力类型划分

逐步聚类法(K-Means Cluster Analysis)又称快速聚类分析、动态聚类分析、K均值聚类分析,是实际工作中常用聚类分析方法之一,可有效处理多变量、大样本的聚类分析,而又不占用太多的内存空间。其计算原理与步骤大致为:首先,用户指定聚类数,软件自动确定每一个类的初始类中心点;然后,所有样本按照其特征向量离哪一个类中心的特征向量最近就把它分到哪一类,形成一个新的K类,完成一次迭代过程;其次,计算属于同一类样本的平均特征向量并作为该类新的类中心特征向量;再次,按照最小距离分类原则对所有样本进行新的分类,计算每一类中各个变量的变量值均值,重新确定K个类的中心点(以均值点作为新的类中心点);最后,如此反复进行计算,直到所有样本所属类别不再变化或者迭代次数达到预先给定的次数为止。

具体操作过程如下:

▷ 步骤1:在PASW Statistics 18中打开“冀中南数据.xlsx”。

首先,点击打开PASW Statistics 18软件,在软件启动窗口中点击“取消”按钮,直接进入软件的数据编辑窗口(图4-2)。

图4-2 PASW Statistics 18的数据编辑窗口

图4-3 “打开Excel数据源”对话框

然后,点击窗口工具条中的“打开数据文档”图标,弹出“打开数据”对话框,定义文件类型为“Excel”,并找到shiyan04文件夹下的冀中南数据.xlsx文件,点击“打开”按钮,弹出“打开Excel数据源”对话框(图4-3),点击勾选“从第一行数据读取变量名”选项,并定义工作表范围,以及字符串列的最大宽度等,此处均选用默认设置,点击“确定”按钮,冀中南数据.xlsx中的属性表数据加载进入PASW Statistics 18的数据窗口中。

用户可以通过点击窗口右下方的视图按钮进行数据视图和变量视图的切换,分别查看数据信息和变量信息。

最后,如果数据信息和变量信息是正确的,点击窗口工具条上的“保存数据”图标,弹出“将数据保存”对话框,将数据保存在shiyan04文件夹下,名称为“冀中南分类分析.sav”。

▷ 步骤2:使用“K均值聚类分析”工具进行逐步聚类分析。

点击工具条上的“分析”—“分类”—“K均值聚类”,弹出“K均值聚类分析”对话框(图4-4)。

定义“个案标记依据”为“市(县)”字段,通过点击左侧窗口中的变量名称,然后点击“载入”按钮,将该字段加入个案标记依据下方的列表中;采用同样方法将除了市(县)变量之外的其他所有变量,载入“变量”下方的列表中(图4-4)。定义“聚类数”为3类,“方法”为迭代与分类(默认设置),“聚类中心”采用默认设置,既不读取初始聚类中心,也不写入最终聚类中心。

图4-4 “K均值聚类分析”对话框

图4-5 “写入文件”对话框

以上设置完成后,下面需要定义“迭代”“保存”和“选项”三项内容。

首先,点击“迭代”按钮,弹出“写入文件”对话框(图4-5)。该对话框只有在设置聚类方法中选择了“迭代与分类”后,才能激活和使用。定义“最大迭代次数”为20(即当逐步聚类达到最大迭代次数,即使尚未满足收敛准则,也将终止迭代);定义“收敛性标准”为0.02,即当收敛值为0.02时迭代终止,当新一次迭代形成的若干个类中心点和上一次的类中心点间的最大距离小于指定的2%时,终止聚类迭代分析过程;复选框“使用运行均值”是用来定义如何更新聚类中心,如果勾选表示每当一个样本分配到一类后重新计算新的类的中心点,快速聚类分析的类中心点将与样本进入的先后顺序有关,如果不选(默认设置)则在完成所有样本依次类分配后计算各类中心点,这种方式可以节省运算时间,尤其是样本容量较大的时候。点击“继续”按钮,返回“K均值聚类分析”对话框。

图4-6 “保存新变量”对话框

然后,点击“保存”按钮,弹出“保存新变量”对话框(图4-6)。分别点击勾选“聚类成员”和“与聚类中心的距离”选项,即输出所有样本所属类的类号和所有样本距所属类中心点的距离。点击“继续”按钮,返回“K均值聚类分析”对话框。

图4-7 “选项”对话框

其次,点击“选项”按钮,弹出“选项”对话框(图4-7)。在“统计量”栏中,点击勾选“初始聚类中心”(为默认设置,即计算并输出各聚类中变量均值的初始估计值)、“ANOVA表”(输出方差分析表,包括每个聚类的单变量F检验值,如果所有个案均分配到单独一个聚类,则不显示方差表)和“每个个案的聚类信息”(将输出每个个案的最终聚类、个案到聚类中心的Euclidean距离、聚类中心间的Euclidean距离)。在“缺失值”中定义缺失值的处理方式,默认设置为“按列表排除个案”,即删除任何聚类变量中有缺失值的个案;如果选择“按对排除个案”,则仅仅剔除所用到的变量的缺失值。点击“继续”按钮,返回“K均值聚类分析”对话框。

最后,点击“确定”按钮,执行K均值聚类分析,得到分析结果(图4-8)。点击窗口工具条上的“保存数据”图标,弹出“将输出另存为”对话框,将数据保存在shiyan04文件夹下,名称为“K均值聚类分析结果.spv”。

图4-8 K均值聚类分析结果

▷ 步骤3:K均值聚类分析结果分析。

按照输出结果表格的顺序分别进行简要的解释说明。

(1)初始聚类中心表,存储的是K均值聚类分析的初始类中心点。

(2)迭代历史记录表,记录了迭代历史过程,共迭代了4次。第4次迭代后,聚类中心内的更改均为0.000,说明第4次迭代之后类中心点没有发生变化。另外,表格下面的文字说明表示,迭代分析结束的原因是类中心点没有发生变化或变化很小,并给出了初始中心点之间的最小距离为23 886.926。

(3)聚类成员表(图4-9),记录了每一个样本的归属和离类中心点的距离。

图4-9 K均值聚类分析结果中的聚类成员

(4)最终聚类中心表,是K均值聚类分析的最终类中心点。与第1个表格(初始类中心点)相比,中心点位置有一些变化,表示迭代过程中,中心点位置有了转移。

(5)最终聚类中心间的距离表(图4-10),是最终的类中心点之间的欧式距离。可以看出,第2类和第3类之间的距离最小,为15 404.052,第1类和第2类中心点之间的距离最大,为36 591.680。

图4-10 K均值聚类分析结果中的最终聚类中心间的距离

(6)ANOVA表(图4-11),是各类样本之间的单因素方差分析表。表格中第1行变量为总人口(万人),它的组间平方和(聚类均方Mean Square)为5 906.992,平均组内平方和(误差均方Mean Square)为917.175,F统计值为6.440,F统计值的相伴概率为0.003。相伴概率小于显著性水平0.01(也可以使用0.05的显著性水平,即5%),因此可以认为对于总人口(万人)变量,63个县市之间存在着显著的差异。

图4-11 K均值聚类分析结果中的ANOVA表

(7)每个聚类中的案例数表,记录了每一个聚类中包含的样本数,以及样本总的有效数和缺失数。

另外,在前面的步骤中曾指定了将样本所属类以及样本和类中心点的距离,作为样本的两个新变量保存到SPSS的数据编辑窗口中。聚类分析之后,可以看到新增加了两个变量QCL_1和QCL_2,分别表示样本所属类以及样本和类中心点的距离(图4-12)。

图4-12 K均值聚类分析之后增加的QCL_1和QCL_2变量

通过K均值聚类分析得到了综合竞争力划分为三类的结果(表4-2)。用户从分类结果中很难准确把握和解释综合竞争力的类间差异。

表4-2 K均值聚类分析分类结果统计表(www.xing528.com)

2)采用系统聚类分析方法进行冀中南区域竞争力类型划分

系统聚类分析,也称层次聚类分析,是根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式,将观察值分类,直到最后所有样本都聚成一类。这种聚类方式是自下而上的分类方法。

系统聚类分析有两种形式,一种是对样本(个案)进行的分类,称为Q型聚类,也称样本聚类分析,它使具有共同特点的样本聚齐在一起,以便对不同的样本进行分析;另一种是对研究对象的观察变量进行分类,称为R型聚类,也称指标聚类分析,它使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。

本例以冀中南数据为例进行系统聚类中的Q型聚类分析。

具体操作过程如下:

▷ 步骤1:在PASW Statistics 18中打开“冀中南分类分析.sav”数据文件。

▷ 步骤2:使用“系统聚类分析”工具进行系统聚类分析。

图4-13 “系统聚类分析”对话框

首先,点击工具条上的“分析”—“分类”—“系统聚类”,弹出“系统聚类分析”对话框(图4-13)。

定义“分群”方法为个案(默认设置),即选用Q型聚类分析;定义“标注个案”为“市(县)”字段,通过点击左侧窗口中的变量名称,然后点击“载入”按钮,将该字段加入标注个案下方的列表中;采用同样方法将除了市(县)变量之外的其他所有变量,载入“变量”下方的列表中(图4-13)。在“输出”栏中点击勾选“统计量”和“图”复选框(为默认设置)。

图4-14 “统计量”对话框

然后,在“系统聚类分析”对话框中分别设置“统计量”“绘制”“方法”和“保存”选项。

点击“统计量”按钮,弹出“统计量”对话框(图4-14)。系统默认选中“合并进程表”选项,即输出系统聚类分析的凝聚状态表来表示类别合并的进程;点击勾选“相似性矩阵”复选框,即输出样本间的距离矩阵。另外,在“聚类成员”中有三个选项:无,不输出系统聚类分析的所属类成员情况;单一方案,并指定聚类数,则仅输出指定聚类数的系统聚类分析的所属类成员情况;方案范围,并指定聚类数范围,则输出指定聚类数区间的系统聚类分析的所属类成员情况。为了和K均值聚类结果对比,这里选择“单一方案”,聚类数为3类,点击“继续”按钮,退出“统计量”对话框。

图4-15 “图”对话框

点击“绘制”按钮,弹出“图”对话框(图4-15)。点击勾选“树状图”,即以树状图形式输出聚类结果,树状图以树的形式展现聚类分析的每一次合并过程,程序首先将各类之间的距离重新转换到0~25之间,然后再近似地表示在图上。在“冰柱”栏中可以定义以冰柱图输出聚类结果,默认设置为“所有聚类”,即输出聚类全过程的冰柱图,如果选择“聚类的指定全距”,并定义“开始聚类”“停止聚类”和“排序标准”,则可以指定显示聚类中某一阶段的冰柱图,如果选择“无”,则不输出冰柱图。可以在“方向”栏中定义冰柱图显示的方向,有“垂直”和“水平”两个选项,默认设置为垂直。本例中,“冰柱”和“方向”栏中均采用默认设置。点击“继续”按钮,退出“图”对话框。

图4-16 “方法”对话框

点击“方法”按钮,弹出“方法”对话框(图4-16)。在“聚类方法”栏中通过下拉菜单指定聚类分析计算方法,下拉框中设置的是小类之间的距离计算方法,程序提供了7种方法供用户选择:组间联接(Between-groups linkage)、组内联接(Within-groups linkage)、最近邻元素(Nearest neighbor)、最远邻元素(Furthest neighbor)、质心聚类法(Centroid clustering)、中位数聚类法(Median clustering)、ward法(Ward's method)。组间联接为默认设置,本例采用默认设置。

定义“度量标准”栏下的“区间”,即定义计算样本距离的方法,适合于连续性变量,共有8个可选项,分别为Euclidean距离、平方Euclidean距离(默认设置)、余弦、Pearson相关性、Chebychev距离、块、Minkowski距离、定义距离;“计数”适合于顺序或名义变量,系统提供两种选择方式:卡方度量(默认设置)和Phi方度量;“二分类”适应于二值变量,系统提供多种选择方式,默认的是平方欧氏距离。本例选择组间联接聚类方法,度量标准选择区间中的平方Euclidean距离。

在“转换值”栏中可定义标准化的方式,以对不同数量级的数据做标准化处理,系统默认设置为不转换,系统提供了6种标准化的方法,分别为z得分(也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1),全距从-1到1(表示将所需要标准化处理的变量范围控制在[-1,1],变量中必须含有负数,由每个变量值除以该变量的全距得到标准化处理后的变量值),全距从0到1(表示将所需标准化处理的变量范围控制在[0,1],由每个变量值减去该变量的最小值再除以该变量的全距得到标准化处理后的变量值),1的最大量(处理以后变量的最大值为1,由每个变量除以该变量的最大值得到),均值为1(由每个变量值除以该变量的平均值得到,因此该变量所有取值的平均值将变为1),标准差为1(表示将所需标准化处理的变量标准差变成1,由每个变量值除以该变量的标准差得到)。如果选择了上面的一种标准化处理方法,则需要制定标准化处理是针对变量的,还是针对个案的。“按照变量”表示针对变量,适应于R型聚类;“按个案”表示针对样本,适用于Q型聚类。本例中选择“全距从0到1”和“按个案”方法对数据进行标准化处理。

“转换度量”是用于指定得到的距离的转换方式,默认状态为不选择。点击“继续”按钮,退出“方法”对话框。

图4-17 “保存”对话框

点击“保存”按钮,弹出“保存”对话框(图4-17)。定义“聚类成员”为“单一方案”,并输入“聚类数”为3,即将系统聚类分析的最终结果以变量的形式保存到数据编辑窗口中。点击“继续”按钮,退出“保存”对话框。

最后,在“系统聚类分析”对话框中,点击“确定”按钮,执行系统聚类分析,得到聚类结果数据文件,并将其保存到shiyan04文件夹下,命名为“系统聚类分析结果.spv”。

▷ 步骤3:系统聚类结果分析。

按照输出结果表格的顺序分别进行简要的解释说明。

(1)近似矩阵表(图4-18),存储的是63个样本两两之间的距离矩阵。

图4-18 系统聚类分析结果中的近似矩阵(或不相似矩阵

(2)聚类表,也称聚类分析的凝聚状态表(图4-19)。该表格第1列(阶)表示聚类分析的步骤,可以看出本例共进行了62个步骤的分析;第2列(群集1)和第3列(群集2)表示某步聚类分析中,哪两个样本或类聚成了一类;第4列(系数)表示两个样本或类间的距离,从表格中可以看出,距离小的样本之间先聚类;第5列和第6列(首次出现阶群集)表示某步聚类分析中,参与聚类的是样本还是类,0表示是样本,数字n(非零)表示第n步聚类产生的类参与了本步聚类;第7列(下一阶)表示本步骤聚类结果在下面聚类的第几步中用到。

图4-19 系统聚类分析结果中的聚类表

(3)群集成员表(图4-20),记录了聚类分析聚成3个类时,每一个样本的类归属情况。

图4-20 系统聚类分析结果中的群集成员表

(4)垂直冰柱图(图4-21),冰柱图的纵轴表示类数。冰柱图应从最低端开始观察。

图4-21 系统聚类分析结果中的垂直冰柱图

(5)树状图(图4-22),可以直观地显示整个聚类的过程。从图中可以看出,各个类之间的距离在25的坐标内。由于本例中部分样本或小类之间距离差距较小,集中分布在小于5的低值区,因此从本图很难清晰地看出哪几个样本先聚类,这时需要借助凝聚状态表进行判别。

图4-22 系统聚类分析结果中的树状图

另外,在前面的步骤中曾指定了将样本所属类作为样本的新变量保存到SPSS的数据编辑窗口中。然后,将系统聚类分析得到的综合竞争力划分为三类的结果整理成分类结果统计表(表4-3),从分类结果中很难准确把握综合竞争力的类间差异。

表4-3 系统聚类分析分类结果统计表

另外,R型聚类分析是对变量的聚类分析,可以通过变量之间的亲疏关系将其分为若干个类别,其过程与Q型聚类基本一致,在此不再赘述。

K均值聚类和系统聚类分析一致,以距离(或相似性)为样本之间亲疏程度的标志,主要差异在于:系统聚类可以对不同的聚类类数产生一系列的聚类解,而K均值聚类只能产生固定类数的聚类解,类数需要用户事先指定。

从K均值聚类分析和系统聚类分析的结果来看,两者存在较大的差别,说明不同的聚类分析方法可能会产生不同的分类结果。另外,分成3类的结果不是很符合我们的判断和实际情况。因此,单纯的聚类分析有时并不能很好的表征样本的实际情况,其原因可能是样本评价的指标之间有很多重复的信息,造成N维空间中点相对积聚,区分度不太好。树状图也说明了这一点,太多的样本在低值区积聚。因而,在综合竞争力评价中,使用主成分分析和层次分析法比较多,应用也更广。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈