分类是根据已有数据样本集的特点建立一个能够把数据集中的数据项映射到某一个给定类别的分类函数或构造一个分类模型(或分类器,classifier)的技术,从而对未知类别的样本赋予类别,以更好的辅助决策。
定义5.1(分类,classify):给定一个数据样本集D={X1,X2,…,Xn},样本XiD,类的集合C= {C1 , C2, … , Cm },分类是从数据样本集到类集合的映射f: D→C,即数据集中的样本Xi分配到某个类Cj中,有Cj = {Xi | f(Xi) = Cj, 1≤i≤n, 1≤j≤m,且XiD}。
构造分类器的过程一般分为模型训练和测试两个阶段。具体过程如下:
(1)模型训练阶段:分析输入数据,通过在训练数据集中的数据表现出来的特性,为每一个类找到一种准确的描述或模型。通常学习模型用分类规则、决策树或数学公式的形式提供。
(2)测试阶段:使用模型分类的阶段,利用类别的描述或模型对测试数据进行分类。首先用测试数据评估分类模型的效果(如准确率),如果模型的效果是可以接受的,则模型可用于对类标号未知的新的数据样本进行分类。
一般来说,测试阶段的代价远远低于训练阶段。
定义5.2(训练数据集):给定一个数据样本集和一组具有不同特征的类,数据样本集中为建立模型而被分析的数据样本的集合称为训练数据集。每个样本属于一个预定义的类,由一个称作类别属性(类标号属性)的属性确定。
定义5.3(训练样本):训练数据集中的单个样本称为训练样本,训练样本随机地由数据样本集选取,每个训练样本有一个类别标记。一个具体样本的形式可记为: (v1 ,v2 ,… ,vn;C),其中vi表示属性值,C表示类别。(www.xing528.com)
定义5.1(分类,classify):给定一个数据样本集D={X1,X2,…,Xn},样本XiD,类的集合C= {C1 , C2, … , Cm },分类是从数据样本集到类集合的映射f: D→C,即数据集中的样本Xi分配到某个类Cj中,有Cj = {Xi | f(Xi) = Cj, 1≤i≤n, 1≤j≤m,且XiD}。
构造分类器的过程一般分为模型训练和测试两个阶段。具体过程如下:
(1)模型训练阶段:分析输入数据,通过在训练数据集中的数据表现出来的特性,为每一个类找到一种准确的描述或模型。通常学习模型用分类规则、决策树或数学公式的形式提供。
(2)测试阶段:使用模型分类的阶段,利用类别的描述或模型对测试数据进行分类。首先用测试数据评估分类模型的效果(如准确率),如果模型的效果是可以接受的,则模型可用于对类标号未知的新的数据样本进行分类。
一般来说,测试阶段的代价远远低于训练阶段。
定义5.2(训练数据集):给定一个数据样本集和一组具有不同特征的类,数据样本集中为建立模型而被分析的数据样本的集合称为训练数据集。每个样本属于一个预定义的类,由一个称作类别属性(类标号属性)的属性确定。
定义5.3(训练样本):训练数据集中的单个样本称为训练样本,训练样本随机地由数据样本集选取,每个训练样本有一个类别标记。一个具体样本的形式可记为: (v1 ,v2 ,… ,vn;C),其中vi表示属性值,C表示类别。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。