【摘要】:常见的分类模型的构造方法有决策树方法、统计方法、神经网络方法等。不同的分类模型有不同的特点,数据样本分类的结果也不同,评价分类模型的尺度主要有:预测准确度:分类模型正确预测新的未知类别数据样本的类标号的能力,方法如保持方法和交叉有效性验证方法等。模型描述的简洁度:对于描述型的分类任务,模型描述应尽量简洁,例如,采用规则表示的分类器构造法易于理解,而神经网络方法产生的结果却难以理解。
常见的分类模型的构造方法有决策树方法、统计方法、神经网络方法等。决策树方法对应的表示为决策树;统计方法包括贝叶斯方法和非参数方法(近邻学习或基于事例的学习),对应的知识表示为判别函数和原型事例;神经网络方法主要是BP算法,它的模型表示是前向反馈神经网络模型(由代表神经元的节点和代表连接权值的边组成的一种体系结构),BP算法本质上是一种非线性判别函数;另外,还有粗糙集(rough set)方法,其知识表示是产生式规则。
不同的分类模型有不同的特点,数据样本分类的结果也不同,评价分类模型的尺度主要有:
(1)预测准确度:分类模型正确预测新的未知类别数据样本的类标号的能力,方法如保持方法和交叉有效性验证方法等。
(2)计算复杂度:依赖于具体的实现细节和硬件环境,在数据挖掘中,由于操作对象是大规模数据集,因此空间和时间的复杂度问题是非常重要的一个环节。(www.xing528.com)
(3)模型描述的简洁度:对于描述型的分类任务,模型描述应尽量简洁,例如,采用规则表示的分类器构造法易于理解,而神经网络方法产生的结果却难以理解。
分类的效果还与数据的特点有关,如噪声大、存在空缺值、样本分布稀疏、属性间的相关性强、存在离散值属性或连续值属性或混合式的属性等。但目前并不存在某种方法能适合于各种特点的数据。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。