首页 理论教育 K均值法在监测系统中的应用及技巧

K均值法在监测系统中的应用及技巧

时间:2023-11-19 理论教育 版权反馈
【摘要】:K均值法的具体步骤为:1)随机选择k个监测数据项作为聚类中心;2)根据相似度距离公式,将数据集中的每一项数据分配到离它最近的聚类中去;3)计算新的聚类中心;4)如果聚类中心没有发生改变,算法结束,否则跳转到第2)步。K均值法的不足是,初始聚类中心的选择具有很大的随机性,直接影响到聚类结果。初始中心点的选择在K均值法中非常重要,为了使各类具有一定的区分度,通常寻找散布较大的点作为初始中心点。

K均值法在监测系统中的应用及技巧

K均值(K-Means Clustering)法也称为K均值聚类法,该方法根据相似度距离迭代来更新向量集的聚类中心,当聚类中心不再变化或者满足某些停止条件时,则停止迭代得到最终的聚类结果。K均值法的具体步骤为:

1)随机选择k个监测数据项作为聚类中心;

2)根据相似度距离公式,将数据集中的每一项数据分配到离它最近的聚类中去;

3)计算新的聚类中心;

4)如果聚类中心没有发生改变,算法结束,否则跳转到第2)步。

K均值法的不足是,初始聚类中心的选择具有很大的随机性,直接影响到聚类结果。该算法生成的聚类数是预先给定的,不能动态地添加新的聚类,也是算法的一个缺点。而且,许多聚类算法的基本结构是搜索后合并,基于密度的聚类算法是不断地搜索高密度子区域,然后利用连通性将其合并到当前的聚类结果中;层次方法中则要搜索两个距离很近的类簇然后合并。很明显,搜索过程需要面对整个样本集合,通常会导致算法的低效率。

在监测系统中,我们可以这样做。设原始数据矩阵为X

其中,xiji=1,2,…,mj=1,2,…,n)为第i个样本的第j个属性的观测数据,第i个样本为矩阵X的第i行的描述。在进行聚类分析时,通过对原始数据矩阵进行相应操作来刻画样本之间的相似性

初始中心点的选择在K均值法中非常重要,为了使各类具有一定的区分度,通常寻找散布较大的点作为初始中心点。在传统的算法中主要是随机选取初始中心点或是以前k个样本作为初始中心点,选取中心点的具体方法如下:(www.xing528.com)

1)输入原始数据矩阵。

2)计算原始数据各维的最大值与最小值,保存为maxj与minj,表示第j维上数值的最大值与最小值。

3)利用公式978-7-111-44655-2-Chapter05-47.jpg

计算得到第1类的中心点在第j维上的值,该值始终在开区间(minj,maxj)内,且各中心点之间比较分散。

对于聚类问题,一个算法产生的簇集可能有许多性质,所以说一个聚类问题中相似性度量的选择是非常重要的。在传统的K均值法中,将每个样本看成是高维空间中的一个点,进而定义点与点之间的距离,距离越大说明样本之间的相似性越小,距离越小说明样本间的相似性越大,这样得到的聚类结果是一些体积相近的球体。用曼哈顿距离来定义样本的属性之间的相似性,再将样本与样本之间的相似性用各个属性的曼哈顿距离来刻画。两个样本xaxb之间的相似性可定义为

两个样本间的相似系数等于n个属性间相似系数之和,每对属性间的相似系数等于每对属性曼哈顿距离加1的倒数。式(5-19)把两个对象间每个属性的相似系数都映射到[0,1]区间,在每个属性的贡献相同的假设下,有更好的可解释性,而对于欧氏距离的度量方法,则会出现某个属性的影响远远大于其他属性甚至其他所有属性之和的现象,从而降低了其他属性在相似性度量中的作用,影响了样本类别的划分,对最终的聚类效果产生一定的影响[19]

以上介绍了几种无监督的分类预测方法。虽然,无监督的聚类算法不需要大量的标记样本,这点优于有监督分类,但它只考虑输入样本,而没有考虑输入样本所对应的输出,这就很难得到最优解。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈