首页 理论教育 空间数据挖掘:从数据到知识的逐渐升华

空间数据挖掘:从数据到知识的逐渐升华

时间:2023-05-18 理论教育 版权反馈
【摘要】:空间数据挖掘从数据到知识,历经数字、空间数值、空间数据、空间信息和空间知识,是一个逐渐升华的技术过程,这些基本概念之间既相互区别,又相互联系。长期以来,有些空间数据挖掘的概念及其不同的定义,已在很多著作、文献中被讨论和研究。图2-4空间数据挖掘的过程①数据选取、清理与集成。③空间数据挖掘。在数据挖掘任务中这几个过程并非按照预定顺序执行,而是根据挖掘的结果不断进行循环往复的过程。

空间数据挖掘:从数据到知识的逐渐升华

空间数据挖掘从数据到知识,历经数字、空间数值、空间数据、空间信息和空间知识,是一个逐渐升华的技术过程,这些基本概念之间既相互区别,又相互联系。长期以来,有些空间数据挖掘的概念及其不同的定义,已在很多著作、文献中被讨论和研究。可是由于空间数据挖掘是交叉学科,不同的学科站在不同的角度,定义了很多不同的概念和含义。例如,数据、信息和知识及其关系的研究(邸凯昌,2001;Frasconi et al.,1999;Han,Kambei,2001)。但是,这些学者都是针对各自不同的专业领域提出的不同的理解,有些并不一定完全适合空间数据挖掘。本书立足于地球空间信息科学,将这一领域进行扩展,重点研究现实世界、概念、数据、空间数值、空间数据、空间信息和空间知识等概念之间的演变历程。

数据库系统中的现实世界是指客观存在的事物及其相互间的联系,一个客观存在并且可以识别的事物称为个体。每个个体都有自己的特点,用以区别于其他个体,例如地块有编号、面积、权属等。概念世界是现实世界在人脑中的反应,是对客观事物及其联系的一种抽象描述。它不是现实世界的简单记录,而是要经过选择、命名、分类等抽象过程产生概念模型,概念模型是现实世界到计算机世界必然经过的中间层次。数据库中的数据是有结构的,这种结构用数据模型表示。数据模型将概念世界中的实体与实体之间的联系进一步抽象成便于计算机处理的方式。

空间数据挖掘的基础是空间数据库系统,土地利用数据挖掘的基础则是土地利用的专题空间数据库系统。数据挖掘的过程是从计算机世界的数据中抽取蕴含的知识,这些知识可以用自然语言来描述,易于被人类所理解,有些知识还可以进一步用可视化技术进行表达,其结果更具有形象性。在一定程度上说,这是现实世界知识的抽象化表达,这个表达不是直接来源于现实世界,而是在数据库系统的基础上通过挖掘得到的结果。因此空间数据挖掘是空间数据库系统建设的逆过程(图2-3),而这个逆过程的结果是更高层次的知识(对应于概念)和抽象的可视化成果(对应于现实世界)。数据挖掘的机理是基于不同视角的“数据→概念→知识”视图,而空间知识则是各级的“类和离群”,或者“规则/决策例外”。当从空间数据中发现知识时,首先从空间数据抽象出对应的空间概念,然后在概念空间中总结初步的空间特征,最后于特征空间内归纳出空间知识。透过纷繁复杂的表象,更准确地区分差别。如果概念层次上升,则从微观逐步到宏观,知识模板上升到抽象级别或更高的知识层次。

图2-3 数据库建库与空间数据挖掘

可见空间数据挖掘机理“数据→概念→知识/决策(规则/决策)”揭示了人类由个别到一般,从具体到抽象,既统揽全局又抓住本质,既深入基层又把握重点的认知规律,对于空间数据挖掘具有一般性的理论指导意义。面向土地用途分区的空间数据挖掘,其实质是在现有的土地数据库中挖掘相关领域的知识或者为领域应用提供决策,从一定意义上说,它是从数据库中挖掘知识和规律,挖掘的知识是需要能被人所理解的,因此可以认为空间数据挖掘是数据库设计的逆过程。但是这一过程不是简单的重复,而是在层次上有所提高,如数据库范畴里面的概念更多与现实世界的概念相似,而数据挖掘的结果则是知识。因此有必要对数据库和知识挖掘做以下对比。

空间数据挖掘是一个通过人机交互来理解数据的过程。系统在执行这些基本过程时可以通过系统界面与用户进行交互,也可以与知识库进行交互,将有趣的规则或模式决策提供给用户或作为新的知识存入知识库中。因此,从一定程度上说空间数据挖掘与传统数据挖掘一样,具有如下几个基本过程(图2-4):数据选取、集成与清理、数据转换、空间数据挖掘、知识评价和知识解释等阶段(Gregory Piatetsky shapiro et al.,Usama M.Fayyad et al.,1996)。(www.xing528.com)

图2-4 空间数据挖掘的过程

①数据选取、清理与集成。从空间数据库中检索出与分析任务相关的数据,将多种数据源按照主题组合在一起,清除原始数据中噪声或不一致的数据,处理缺值或丢失数据等,并定义感兴趣的对象及其属性数据。

②数据转换。通过数据转换或降维技术进行特征提取,使其转换成适合挖掘的数据。

③空间数据挖掘。空间数据挖掘是整个过程中的核心,根据空间数据挖掘任务的目标,通过选择传统的或智能计算方法,或对这些方法进行集成,确定参数,从数据库中提取任务相关的规则或决策方案,使用产生式规则或可视化等手段向用户提供挖掘的知识。

④知识、决策评价。根据领域应用需求针对某种感兴趣的规则进行度量,识别真正有趣的模式。

⑤知识理解。用户对挖掘的知识和模式进行解译并理解,判断结果是否满意,如若不满意,则返回前面的阶段重新开始挖掘任务,直至满意为止。在数据挖掘任务中这几个过程并非按照预定顺序执行,而是根据挖掘的结果不断进行循环往复的过程。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈