首页 理论教育 MATLAB聚类分析命令与SPSS实例操作

MATLAB聚类分析命令与SPSS实例操作

时间:2023-11-17 理论教育 版权反馈
【摘要】:'method'可取表8.1.2中特征字符串值。表8.1.3cutoff取值及含义T=cluster从连接输出中创建聚类。由于聚类分析、判别分析、主成分分析和因子分析的算法比较成熟,它们早已是SPSS的标准模块。图8.1.4聚类分析判别分析图8.1.5系统聚类分析菜单设置选择参与聚类分析的变量。

MATLAB聚类分析命令与SPSS实例操作

1. MATLAB中聚类分析相关命令

MATLAB中聚类分析相关命令主要有:

Y=pdist(X)计算m×n矩阵X(看作m个n维行向量)中两两对象间的欧氏距离。输出Y是包含距离信息的长度为(m-1)·m/2的向量。可用squareform函数将此向量转换为方阵,这样可使矩阵中的元素(i, j)对应原始数据集中对象i和j间的距离。

Y=pdist(X, 'metric')使用'metric'指定的方法计算矩阵X中对象间的距离。'metric'可取表8.1.1中特征字符串值。

Y=pdist(X, 'minkowski', p)用闵氏距离计算矩阵X中对象间的距离,p为闵氏距离的指数值,缺省为2。

Z=linkage(Y, 'method')使用由'method'指定的算法计算生成聚类树。输入矩阵Y为pdist函数输出的(m-1)·m/2维距离行向量。'method'可取表8.1.2中特征字符串值。

表8.1.1 'metric'取值及含义

表8.1.2 'method'取值及含义

输出Z为包含聚类树信息的(m-1)×3矩阵。聚类树上的叶节点为原始数据集中的对象,由1到m。它们是单元素的类,级别更高的类都由它们生成。对应于Z中第j行每个新生成的类,其索引为m+j,其中m为初始叶节点的数量;第1列和第2列,即Z(: ,[1: 2])包含了被两两连接生成一个新类的所有对象的索引。生成的新类索引为m+j。共有m-1个级别更高的类,它们对应于聚类树中的内部节点;第3列Z(: , 3)包含了相应的类中的两两对象间的连接距离。

T = cluster(Z, 'cutoff')从连接输出(linkage)中创建聚类。cutoff为定义cluster函数如何生成聚类的阈值,其不同的取值含义如表8.1.3所示。

表8.1.3 cutoff取值及含义

T=cluster(Z, cutoff, depth, flag)从连接输出(linkage)中创建聚类。参数depth指定了聚类数中的层数,进行不一致系数计算时要用到。

H=dendrogram(Z, P)由linkage产生的数据矩阵Z画聚类树状图。P是结点数,默认值是30。

T=clusterdata(X, cutoff)将矩阵X的数据分类。X为m×n矩阵,被看作m个n维行向量。它与以下几个命令等价:

Y=pdist(X)或Z=linkage(Y, 'single')或T=cluster(Z, cutoff)(www.xing528.com)

2. SPSS中聚类分析的操作

SPSS易学、易用、操作简便:绝大多数操作是通过菜单、按钮、对话框完成的,无须计算机编程、无须记忆大量命令和参数,并且分析方法丰富、分析结果清晰直观。由于聚类分析、判别分析、主成分分析和因子分析的算法比较成熟,它们早已是SPSS的标准模块。

在SPSS中打开数据文件,如图8.1.4所示,菜单依次点击“分析—分类”,系统界面随即出现K-均值聚类、系统聚类、判别分析等选项;点击进入“系统聚类分析”对话框,如图8.1.5所示。

图8.1.4 聚类分析判别分析

图8.1.5 系统聚类分析菜单设置

(1)选择参与聚类分析的变量

①“变量”框:选取参与聚类分析的变量。这里选择:x1、x2、x7、x8、x9、x10。显然,选取不同的变量,结果是不一样的。

②“聚类”框:如果是对个案聚类,即Q型聚类,选择个案;如果是对变量聚类,即R型聚类,则选择变量。

(2)单击图8.1.5右侧“统计量”按钮,选择是否输出合并的进程。在聚类成员选项中,如果确定了分类数(给出具体的分类数或一个范围),会在结果查看器输出每个个体所属的类别。与K-均值聚类还是有区别,K-均值聚类可以给出更多的细节。

(3)单击图8.1.5右侧“绘制”按钮,选择是否输出树状图,它直观地显示了个案逐步合并的过程。此图可以直观地反映分类进程,为具体分类提供参考,如何得出最后的分类结果由用户决定,取决于用户选择怎样的分类标准。K-均值聚类则不会输出树状图。

(4)单击图8.1.5右侧“方法”按钮,系统弹出对话框(见图8.1.6),系统聚类分析有关参数设置如下:①聚类方法:选择类与类之间的距离计算方法,点击下拉菜单倒三角,出现多种方法供选择。②度量标准:选择点与点之间的距离计算方法。要注意参与分析的变量的数据类型,先选择区间、计数或二分类,然后点击对应的下拉菜单倒三角,出现多种方法供选择。有的数据类型,如区间,若有必要,还可以从下拉菜单倒三角选择标准化方法。K-均值聚类则没这么复杂。

图8.1.6 系统聚类分析聚类方法数据类型标准化设置

(5)单击图8.1.5右侧“保存”按钮,在“聚类成员”选项中,如果确定了分类数(给出具体的分类数,如3或一个范围),数据集会自动添加新变量CLU3_1来保存每个个案所属的类别。系统聚类与K-均值聚类还是有区别,K-均值聚类可以给出更多的细节。

(6)完成所有设置后,单击“OK”按钮,SPSS随后输出系列结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈