谈到知识发现和数据挖掘,必须进一步阐述其研究的理论基础。虽然是关于数据挖掘的理论基础问题,仍然没有到完全成熟的地步,但是分析它的发展,可以对数据挖掘的概念更清楚。系统的理论是研究、开发、评价数据挖掘方法的基石。经过十几年的探索,一些重要的理论框架已经形成,并且吸引着众多的研究和开发者为此进一步工作,向着更深入的方向发展。
数据挖掘方法可以是基于数学理论的,也可以是非数学的;可以是演绎的,也可以是归纳的。
1.模式发现(Pattern Discovery)架构
在这种理论框架下,数据挖掘技术被认为是从源数据集中发现知识模式的过程。这是对机器学习方法的继承和发展,是目前比较流行的数据挖掘研究与系统开发架构。按照这种架构,可以针对不同的知识模式的发现过程进行研究。目前,在关联规则、分类聚类模型、序列模式(Sequence Model)以及决策树(Decision Tree)归纳等模式发现的技术与方法上取得了丰硕的成果。近几年,也已经开始对多模式知识发现的研究。
2.规则发现(Rule Discovery)架构
Agrawal等综合机器学习与数据库技术,将三类数据挖掘目标(即分类、关联及序列)作为一个统一的规则发现问题来处理,它们给出了统一的挖掘模型和规则发现过程中的几个基本运算,解决了数据挖掘问题如何映射到模型和通过基本运算发现规则的问题,这种基于规则发现的数据挖掘构架,也是目前数据挖掘研究的常用方法。
3.基于概率和统计理论
在这种理论框架下,数据挖掘技术被看作是从大量源数据集中发现随机变量的概率分布情况的过程,如贝叶斯置信网络模型等。目前,这种方法在数据挖掘的分类和聚类研究及应用中取得了很好的成果,这些技术和方法可以看作是概率理论在机器学习中应用的发展和提高。统计学作为一个古老的学科,已经在数据挖掘中得到广泛的应用。例如,传统的统计回归法在数据挖掘中的应用,特别是最近10年,统计学已经成为支撑数据仓库、数据挖掘技术的重要理论基础。
4.微观经济学观点(Microeconomic View)(www.xing528.com)
在这种理论框架下,数据挖掘技术被看作是一个问题的优化过程。1998年,Kleinberg等人建立了在微观经济学框架里判断模式价值的理论体系。他们认为,如果一个知识模式对一个企业是有效的话,那么它就是有趣的。有趣的模式发现是一个新的优化问题,可以根据基本的目标函数,对“被挖掘的数据”的价值提供一个特殊的算法视角,导出优化的企业决策。
5.基于数据压缩(Data Compression)理论
在这种理论框架下,数据挖掘技术被看作是对数据的压缩过程。按照这种观点,关联规则、决策树、聚类等算法实际上都是对大型数据集的不断概念化或抽象的压缩过程。按Chakrabarti等人的描述,最小描述长度(Minimum Description Length,MDL)原理可以评价一个压缩方法的优劣,即最好的压缩方法应该是概念本身的描述和把它作为预测器的编码长度都最小。
6.基于归纳数据库(Inductive Database)理论
在这种理论框架下,数据挖掘技术被看作是对数据库的归纳问题。一个数据挖掘系统必须具有原始数据库和模式库,数据挖掘的过程就是归纳的数据查询过程,这种构架也是目前研究者和系统研制者倾向的理论框架。
7.可视化数据挖掘(Visual Data Mining)
1997年,Kelm等对可视化数据挖掘的相关技术给出了综述。虽然可视化数据挖掘必须结合其他技术和方法才有意义,但是以可视化数据处理为中心来实现数据挖掘的交互式过程以及更好地展示挖掘结果等,已经成为数据挖掘中的一个重要方面。
当然,上面所述的理论框架不是孤立的,更不是互斥的,对于特定的研究和开发领域来说,它们是相互交叉并有所侧重的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。