聚类分析简称聚类,是指依据数据的相似度或相异度将数据集分组为多个子集的分析过程。每个子集称为一个簇,对应一个类别,使得同一个簇中的数据相似度大,而不同簇之间的相似度小。在相同的数据集上,由于不同的目的、数据输入方式、所选的聚类特征或数据属性,将会产生不同的聚类结果。聚类分析是通过分群以找出各个子聚类数据背后可能隐藏的特征或关联现象,聚类分析分群结果的特征及其所代表的意义仅能事后解释。聚类源于很多领域,包括数学、计算机科学、统计学、生物学和经济学等。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类与分类的不同在于,聚类所要求划分的类是未知的。
从机器学习的角度讲,簇相当于隐藏模式,可以看作是隐含的类。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。因此,聚类是观察式学习,而不是示例式学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具来洞察数据的分布状况,寻找数据的内部结构,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如特征化、属性子集选择和分类)的预处理步骤,之后这些算法将在检测到的簇和选择的属性或特征上进行操作[32]。聚类分析还可以用作离群点检测,其中离群点(远离任何簇的点)检测的应用包括信用卡欺诈检测、电子商务活动中的犯罪活动监控、服刑人员的异常行为监控等。(www.xing528.com)
根据数据的不同,我们一般把聚类方法分为两类:一类是基于相似度的聚类方法,使用的是n*n的相似度矩阵或者距离矩阵;另一类是基于特征的聚类方法,输入的是n*d的特征数据。前者的优势在于能把不同领域的数据相似度的度量融合进去,甚至可以加入核函数来度量相似度;而后者可以直接考虑原始数据,避免因度量距离而丢失某些信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。