分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分类也即是构造一个分类模型,通过对输入样本数据的属性值进行训练,输出对应的类别,将每个样本映射到预先定义好的类别,从而得到预测数据对象的分类标号(或离散值),分类模型形式化描述如下:
分类模型的构造过程一般分为训练和测试两个阶段。在构造模型之前,要求将历史数据集随机地分为训练数据集和测试数据集。在训练阶段,通过选择某种分类算法对训练数据集进行训练,得到分类模型。训练数据集通常由多个属性描述的一条条数据元组来组成,假定每个元组属于一个预定义的类,由一个称作类标号属性的属性来确定。训练数据集中的单个元组也称作训练样本,包含若干个属性(Attribute);此外,还包含一个预先定义好的类标签与之对应,组成一个特征向量。一个具体样本的形式可为:(a1,a2,…,an;c);其中ai表示属性值,c表示类别。由于提供了每个训练样本的类标号,分类也被称为有指导的学习或有监督的学习。通常,模型用分类规则、判定树或数学公式的形式提供。测试阶段,在测试数据集上使用评估指标对模型的分类效果进行评估,如果认为模型分类效果可以接受,就可以用该模型对未知类别的新数据元组进行分类,分类模型分类示意图见图5-8所示。
(www.xing528.com)
图5-8 分类模型示意图
分类模型的测试和评估相关内容见本书2.4.5评估与优化模型中“2.分类模型的评估”。分类模型有两个主要作用:第一,描述性建模,即作为解释性的工具,用于区分不同类中的对象;第二,预测性建模,即用于预测未知数据元组的类标号。
常用的分类算法包括:逻辑回归算法、k近邻算法、朴素贝叶斯分类算法、基于支持向量机的SVM算法、决策树分类算法、神经网络算法等,随后会对这些算法进行详细的介绍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。