【摘要】:在开始聚类分析介绍之前,先给出一个简单直观的例子。表4-1包含相似对象的类的样本集(续表)(续表)聚类分析和分类分析都是数据挖掘的重要技术,两者的目的都是将数据对象集合分门别类,但存在本质区别。机器学习分为两类:有监督学习和无监督学习。例4.1中对每个簇特征的解释表明聚类过程是在无监督的情况下进行的。聚类分析与分类分析的根本区别在于:分类需要事先知道分类所依据的属性值,而聚类需要找到这个属性值。
本节首先阐述聚类分析与分类分析的区别,然后给出聚类分析相关的定义。
聚类分析是根据最大化类内的相似性、最小化类间的相似性的原则将数据对象聚类或分组,所形成的每个簇可以看作一个数据对象类,用显式或隐式的方法描述它们。
在开始聚类分析介绍之前,先给出一个简单直观的例子。
例4.1:给出某个网站中九个访问者一周内的浏览信息,可分为三个簇进行描述(表4-1)。描述访客的两个特征值分别是访客访问该站点的次数、停留的时间。簇1中的访客访问次数较少,但停留时间长;簇2中的访客访问次数多且停留时间长;簇3中的访客访问次数少且停留时间短。
表4-1 包含相似对象的类的样本集
(www.xing528.com)
(续表)
聚类分析和分类分析都是数据挖掘的重要技术,两者的目的都是将数据对象集合分门别类,但存在本质区别。
机器学习分为两类:有监督学习和无监督学习。有监督学习中的训练集是带有类标号的,新的数据是基于训练集进行分类的,分类分析是有监督的学习过程,分类之前已经知道应该把数据分成哪几类,每个类的性质是什么,例如:客户信用卡等级;无监督学习的训练集是没有类标号的,系统对输入的数据样本自动形成簇,聚类分析是无监督的学习过程,常常针对没有先验知识的问题,不依赖预先定义的类和带类标号的训练样本,进行聚类前并不知道将要划分成几个簇和什么样的簇,即簇的数目是未知的,聚类的结果是动态的,例如:客户的购买行为。
例4.1中对每个簇特征的解释表明聚类过程是在无监督的情况下进行的。
聚类分析与分类分析的根本区别在于:分类需要事先知道分类所依据的属性值,而聚类需要找到这个属性值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。