首页 理论教育 聚类分析的基本概念探究

聚类分析的基本概念探究

时间:2023-06-27 理论教育 版权反馈
【摘要】:聚类试图将数据集样本划分为若干个不相交的子集,每个子集称为一个“簇”,这样划分出来的子集可能有一些潜在规律和语义信息,但是其规律是事先未知的,概念语义和潜在规律是在得到类别后分析得到的。基于层次的聚类:不需要事先指定类簇的个数,根据数据样本之间的相互关系,构建类簇之间在不同表示粒度上的层次关系。该算法可以发现不规则形状的类簇,最大的优势在于对噪声数据的处理上。

聚类分析的基本概念探究

1.机器学习方法

机器学习是利用既有的经验,完成某种既定任务,并在此过程中不断改善自身性能。通常按照机器学习的任务,将其分为有监督的学习和无监督的学习两大类方法。

在监督学习中,训练样本包含目标值,学习算法根据目标值学习预测模型。无监督的学习倾向于对事物本身特性的分析。聚类分析属于无监督学习,训练样本的标签信息未知,通过对无标签样本的学习揭示数据内在的性质及规律,这个规律通常是样本间相似性的规律。

2.聚类分析

聚类分析是根据数据样本自身的特征,将数据集合划分成不同类别的过程,把一组数据按照相似性和差异性分为几个类别,其目的是使属于同一类别的数据间的相似性尽可能强,不同类别中的数据的相似性尽可能弱。聚类试图将数据集样本划分为若干个不相交的子集,每个子集称为一个“簇”(Cluster),这样划分出来的子集可能有一些潜在规律和语义信息,但是其规律是事先未知的,概念语义和潜在规律是在得到类别后分析得到的。

聚类分析中的“聚类要求”有以下两条:

(1)每个分组内部的数据具有比较大的相似性。(www.xing528.com)

(2)组间的数据具有较大的差异性。

聚类分析的方法有很多种,由于它们衡量数据点远近的标准不同,具体可以分为以下三类:

(1)基于划分的聚类:把相似的数据样本划分到同一个类别,不相似的数据样本划分到不同的类别。这是聚类分析中最为简单、常用的算法。

(2)基于层次的聚类:不需要事先指定类簇的个数,根据数据样本之间的相互关系,构建类簇之间在不同表示粒度上的层次关系。

(3)基于密度的聚类:假设类簇是由样本点分布的紧密程度决定的,同一类簇中的样本连接更紧密。该算法可以发现不规则形状的类簇,最大的优势在于对噪声数据的处理上。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈