对知识发现概念的理解可分为广义和狭义,其中广义上的知识发现指新事物的发现[22],而狭义上的知识发现又被称为“数据库知识发现”(Knowledge Discovery in Database,简称KDD),是指从大量的数据中提取出可信的、新颖的、有用并能被人理解的模式的高级处理过程[23]。
KDD最早在1989年的一次研讨会上被提出,这一概念突出了“知识”,即数据发现的最终产品。作为一门交叉性学科,KDD还并存有许多不同的术语名称,如数据挖掘、知识发现、知识抽取、信息发现、智能数据分析、探索式数据分析、信息收获和数据考古等[24]。其中,与KDD概念密切相关的一个概念是数据挖掘(Data Mining)。对数据挖掘的一种理解是知识发现的同义词,另一种理解则认为KDD是发现有用知识的全过程,而数据挖掘是其中的关键步骤,主要是利用特殊算法从数据中抽取模型。因此,对于后者而言,除了数据挖掘,KDD过程还包括数据准备、数据筛选、数据清洗、先验知识(Prior Knowledge)整合、对挖掘结果的合理解释,这些步骤对于确保从数据中获得有用的知识都是非常关键的[25]。在图书情报(简称“图情”)领域,数据挖掘往往被认为是知识发现的同义词。(www.xing528.com)
KDD是一个反复迭代的人机交互过程,需要经历多个步骤。从宏观上看,一般分为三个阶段,其中数据准备阶段主要是熟悉相关背景,清楚用户需求,根据需求确定目标数据,通过消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等。数据挖掘阶段首先要确定开采的任务和目的,确定开采方法,在此基础上,运用所选的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。结果解释与评估阶段主要是对数据挖掘步骤中发现的知识或模式进行解释,将发现的内容以用户可理解的方式呈现给用户[26][27]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。