9.4.1.1 数据标准化
由于在聚类分析时所研究的各个变量的单位和量纲可能不一致,即便有些变量的度量一样,但各变量的绝对值可能相差很大,如果直接用原始数据进行计算就会突出那些绝对值大的变量而降低了那些绝对值小的变量的作用。同时模糊运算要求必须将数据压缩在[0,1]之内,所以应将原始数据标准化。数据标准化的方法很多,现介绍如下几种:
设论域U={u1,u2,…,un}为被分类的对象,每个元素又由m个数据表示,对第i 个元素为ui={xi1,xi2,…,xim}(i=1,2,…,n),这时原始数据矩阵可表示为:
其中
经过变换后,每个变量的均值为0,标准差为1,可以消除量纲的影响,但变量值不一定在[0,1]区间上。
(2)极差变换。有极差正规化和极差标准化两种方法。
极差正规化公式为:
极差标准化公式为:
(3)除以最大值变换。其计算公式为:
9.4.1.2 建立模糊相似矩阵
模糊相似矩阵的建立又称标定,即算出衡量被分类对象间相似程度的相似系数rij。设U ={u1,u2,…,un}为待分类事物的全体,ui由一组数据xi1,xi2,…,xim来表征,用rij来表示元素ui与uj的相似系数,0≤rij≤1 (i,j=1,2,…,n);rij=0 表示ui与uj截然不同,毫无相似之处;rij=1 表示它们完全相似或等同;当i=j 时,rii就是ui自己与自己的相似程度,恒取为1。rij可根据实际情况,选择下列方法之一来确定。
(1)数量积法:
其中
(2)夹角余弦法:
(3)相关系数法:
其中
(4)最大最小法:
(5)算术平均法:
(6)几何平均法:
(7)绝对指数法:
9.4.1.3 聚类
设论域U={u1,u2,u3,u4},给定模糊关系如下:
1)当λ=1 时,元素值小于1 时rij=0,即
此时,共分为四类:{u1}、{u2}、{u3}、{u4}。是把每一个元素分为一类,是最细的分类。
2)当λ=0.6 时,元素值小于0.6 时,rij=0,大于等于0.6 时rij=1,即
此时,第一行与第三行的元素相同,可归为一类,共分为三类:{u1,u3}、{u2}、{u4}。
3)当λ=0.48时,元素值小于0.48时rij=0,大于等于0.48时rij=1,于是(www.xing528.com)
此时,第一、第二、第三行的元素相同,可归为一类,共分为两类: {u1,u2,u3}、{u4}。
4)当λ=0.41 时,模糊截矩阵的元素全部为1,即
图9.1 聚类图
此时,所有元素分为一类,是最粗的分类。
由此形成的聚类图如图9.1 所示。
从上述可看出,λ值越大,分的类越细;反之,分的类越粗,当小到一定程度时,整个样本归为一类。可见λ值的确定对聚类分析非常重要。下面介绍确定理论最佳阈值λ的方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。