聚类分析也称集群分析,是一种“物以类聚”的统计描述方法.它是根据事物本身的特性对被研究对象进行分类,使同一类中个体有较大的相似性,不同类中的个体有较大的差异性.在分类过程中,人们不必事前给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类.
聚类分析主要解决的问题:所研究的对象事先不知道应该分为几类,更不知道分类情况,需要建立一种分类方法来确定合理的分类数目,并按相似程度、相近程度对所有对象进行具体分类.
基本思路:在样本之间定义距离,在指标之间定义相关系数,按距离的远近,相似系数的大小对样本或指标进行归类.
常用的有快速(K-均值)聚类分析、系统聚类分析.
1.快速聚类分析
快速聚类也称为逐步聚类,它先对数据进行初始分类,然后系统采用标准迭代算法进行运算,逐步调整,把所有的个案归并在不同的类中,得到最终分类.它适用于大容量样本的情形.
快速聚类的分析计算过程如下.
(1)用户确定聚类的类别数,如k类.(www.xing528.com)
(2)SPSS系统确定k个类的初始中心点.SPSS会根据样本数据的实际情况,选择k个有代表性的样本数据作为初始类中心.初始类中心也可以由用户自行指定,需要指定k组样本数据作为初始类中心点.
(3)计算所有样本数据点到k个初始类中心点的欧式距离,SPSS按照距k个初始类中心点的聚类最短原则,把所有样本分派到中心点所在的类中,形成一个新的k类,完成一次迭代过程.
(4)SPSS重新确定k个类的中心点.SPSS计算每个类中各个变量的变量值均值,并以均值点作为新的初始类中心点.
(5)重复上面(3)(4)两步计算过程,直到达到指定的迭代次数或者终止迭代的判别要求为止.
2.系统聚类分析
系统聚类分析师根据个案或者变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式把所有个案分类,逐步合并直到最后合并成为一类.
系统聚类分析根据聚类过程的不同可分为凝聚法和分解法.凝聚法是指一开始把每个个案都视为不同类,然后通过距离的比较逐步合并直到把参与聚类的个案合并成事先规定的类别数为止.分解法是一开始把所有个案都视为同一个类,然后通过距离的比较逐层分解,直到把参与聚类的个案区分成事先规定的类别数为止.无论哪种聚类方法,其原则都是相近的聚为一类,实际上上述两种方法是方向相反的两种聚类过程.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。