“我们已被信息所淹没,但是却正在忍受缺乏知识的煎熬”。如何有效地利用、挖掘城市资源,将数据转换成知识,是数字城市建设中数据处理技术所要解决的主要问题。数据处理技术包括数据预处理、数据处理、数据再处理三个过程。
(一)3S及其集成技术
全球定位系统(GPS)、遥感(RS)和地理信息系统(GIS)是建立数字城市的三大支撑技术。这三大技术工具各具特色,在实际工作中单独使用时各自存在缺陷,GPS可在瞬间产生目标定位坐标却不能给出点的地理属性,遥感技术可快速获取区域面状信息但又受光谱波段限制,而且还有众多地物特性不可遥感,GIS具有较好的查询检索、空间分析计算和综合处理能力,但数据录入和获取始终是个瓶颈问题。数字城市需要综合运用这三大技术的特长,方可形成和提供所需的对地观测、信息处理和分析模拟的能力。因此,3S一体化技术将是建立数字城市的核心技术之一。
(二)超媒体与分布式计算技术
(1)WebGIS:即在网络上实现地理信息系统的功能。在互联网上任一个用户使用浏览器浏览WebGIS站点中的空间数据,制作专题地图,进行空间分析和查询。
(2)分布式计算技术:解决分布异构环境下的互操作问题,面向对象技术,实现应用软件的组件式开发等。
(三)空间数据挖掘技术
1.数据挖掘问题的提出
数据库技术是计算机信息处理中最重要、应用最广泛的技术之一,已经深入到各个领域,有人统计全球信息以每20个月翻一番的速度增长,但现今的数据库大多数仍停留在对数据的查询检索阶段,数据库中隐藏的丰富的知识远远没有得到发掘和利用。“人们被数据淹没,但却饥饿于知识”。如何迅速准确地获取其中有用的信息和知识,以预测模式和发展趋势、产生形象化的表示等,成了人们关注的问题。另外,在信息爆炸的时代,信息过量几乎成为人人需要面对的问题,如何才能不被信息的汪洋大海所淹没,从中发现有用的东西,提高信息的利用率呢?数据挖掘技术应运而生,数据挖掘这个提法最早出现在1989年8月的一次国际人工智能学术会议上,认为它是人工智能、知识工程、数据库技术、数理统计、可视化技术、并行计算技术相互结合的产物。数据库界已经开始反思,数据库应用仅仅是查询检索吗?数据库中隐藏的丰富的知识远远没有得到充分的挖掘和利用,数据库是否应该作为知识的来源?当然回答是肯定的。
2.数据挖掘技术的基本概念
数据挖掘综合了数据库技术、人工智能、专家系统、统计分析、模糊逻辑、模式识别、机器学习、人工神经网络、可视化等有关新技术与新理论,是多个学科交叉融合的产物,其目的是知识的提取。被认为是“从数据库中发现隐含的、先前不知道的、现在有用的信息,或者提取用户感兴趣的空间模式和特征、空间、非空间数据之间的普遍关系以及其他隐含在数据库中的数据特征。”具体来说数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘是发现新知识和规律。数据挖掘又称数据库中的知识发现。数据挖掘目的是把大量的原始数据转换成有价值的东西,用于描述过去的状况和预测未来的趋势。美国权威专家认为:“从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程,包括数据选择(定义对象及其属性)、数据预处理、数据变换(指通过数学变换和降维技术进行特征提取)、数据发掘、模式评价等步骤。”
(1)统计分析方法。利用概率论与数理统计的原理对关系中各属性进行统计分析,从而找出它们之间的关系与规律。常用的统计方法有判别分析、因子分析、相关分析、主成分分析等,统计分析难以处理字符型数据。
(2)归纳学习方法。归纳是从个别到一般,从部分到整体的推理过程。归纳学习是重要的数据挖掘与知识发现,它旨在对数据进行概括与综合,挖掘出以往不知道的规则和规律,归纳出高层次的模式或特征。即从大量的经验数据中归纳抽取一般的规则和模式。但归纳时,多数情况不可能考察全部有关的事例,因而不能保证归纳结果的完全正确性。因而归纳推理不具备保真性,是一种偶然性推理,或说是一种主观的不充分置信的推理。
(3)演绎推理是从一般到个别的推理。根据一般规则和已知事实提出结论,只要规则正确,前提为真,结论一定为真。演绎推理具有保真性,是一种必然性推理。
(4)聚类与分类分析方法。聚类分析是统计学的一个分支,他在数据库中能直接发现一些有意义的聚类结构,根据事物的特征对其进行聚类或分类,即所谓物以类聚,以其从中发现规律和典型模式。除传统的基于多元统计分析的聚类方法外,近年来模糊聚类和神经网络聚类方法有了长足的发展。(www.xing528.com)
(5)分类分析。就是通过分析数据库中的数据,为每个类别做出准确地描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其他数据库中的记录进行分类。如线性回归模型、决策树模型、神经网络模型等分类分析模型已在应用。
(6)遗传算法。仿效生物的进化与遗传,根据生存竞争、优胜劣汰的原则,借助复制、交换、突变等操作,使所要解决的问题从初始解一步步地逼近最优解,这是一种优化技术。
(7)决策树方法:根据信息论原理对数据库中存在的大量数据进行信息量分析,在计算数据特征的互信息的基础上提取出反映类别的重要特征。
(8)模糊数学方法。用隶属函数确定的隶属度描述不确定的属性数据,重在处理不精确的概率。是继经典数学、统计数学之后,在数学上的新发展。模糊性是客观存在的,当数据量越大而且复杂性越大时,对他进行精确描述的能力越低,就是说模糊性越强。在数据挖掘领域中主要是进行模糊综合判别、模糊聚类分析等。模糊方法对于同时含有模糊性与随机性的不确定性空间数据挖掘,只能丢弃随机性,这是不合适的。
(9)云理论。李德仁、李德毅(工程院院士)兄弟二人提出,是一个分析不确定性信息的新理论,由云模型、虚拟云、云运算、云变换和不确定性推理等主要内容构成。可以处理GIS中融随机性与模糊型为一体的属性不确定性。运用云理论进行空间数据挖掘,可进行概念和知识的表达,定量和定性的转化,概念的综合与分析,从数据中生成概念和概念层次结构,不确定性推理和预测等。
(10)粗集方法。1982年波兰学者提出的一种智能决策分析工具,它是一种描述不完整性和不确定性的数学工具,能有效地分析不精确、不一致、不完整等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。粗集的数学基础是近似域,模糊集中在模糊性,基础是模糊隶属度,云理论兼容模糊性和随机性,基础为云变换,粗集重在不完备性,基础为上、下近似集。在自变量与因变量集之间,模糊数据是一一对应关系,云理论是一对多关系,粗集是一对一个区域。基于粗集于模糊数学理论,可以挖掘出和发现影像分类和分析、地价评估和空间表达、城乡接合部用地分析和规划的知识。
(11)神经网络方法。城市系统也向生态系统与人类社会系统一样,有自组织功能。如同人的神经系统一样遍布全身,传递内部与外部的信息,汇总到神经中枢,经过分析与决策后,再通过神经系统,传达到全身各个部位做出适当的反应。神经网络方法的原理是模拟人脑的神经元结构,由多个非常简单的处理单元(神经元)按某种方式相互联结而形成。基于神经网络的数据挖掘工具对于非线性数据具有快速建模能力,其挖掘的基本过程是先将数据聚类,然后分类计算权值,神经网络的知识体现在网络连接的权值上。神经网络具有对非线性数据快速拟合的能力,可用于分类、聚类、特征挖掘等多种数据挖掘任务,在信号处理、模式识别、人工智能、决策优化与分析建模方面有广泛的应用。
(12)空间分析方法。空间分析是GIS的关键技术,利用GIS的各种空间分析功能从而产生新的信息和知识。如拓扑分析、缓冲分析、距离分析、叠置分析、网络分析、地形分析、趋势面分析、预测分析等。
(13)可视化技术方法。这是一种辅助方法,它采用比较直观的图形图表方式将挖掘出来的模式表现出来。可视化技术是用户看到数据处理的全过程,监控并控制数据分析过程。人类对于图形的模式识别能力是非常强大的,很容易从各种图形表示中发现规律或异常,充分发挥人的智慧,有人认为目前这是行之有效的方法,比目前的任何模式识别和一场检测的计算机技术都强。
(14)探测性的数据分析。采用动态统计图形和动态链接窗口技术将数据及其统计特征显示出来,从而发现数据中非直观的数据特征及异常数据。他不预设数据具有某种分布或具有某种规律,而是一步一步地、试探性地分析数据,逐步地认识和理解数据,可发现隐含在数据中的某些特征和规律。
(15)图形图像分析和模式识别方法。可直接将图形图像分析和模式识别方法用于挖掘数据和发现知识,或作为其他挖掘方法的预处理手段。用于图像分析和模式识别方法除主要有决策树方法、神经元方法等常用方法外,还有数学形态学方法、图论方法等。
(四)元数据
美国联邦地理数据委员会认为:元数据是关于数据内容、质量、条件以及其他特征的数据,是描述数据的数据。通过元数据可以组织、管理、查找与发现挖掘信息资源。这是数据生产者与使用者的共识。元数据其实不是一个新概念,从本质上讲,图书馆的卡片、出版图书的版权说明、磁盘的标签等是原数据,对纸质地图来说,图名、图例、比例尺、图廓、地图内容说明、编制出版单位和日期等都是原数据。通过它可较容易地确定该书或地图是否能够满足应用的需要。在构成“数字城市”的各类信息系统中,储存有大量的、各种类型的数据,如何对这些数据进行有效的管理、共享和更新维护是信息系统建设中的突出问题,元数据正是为了解决此类问题而应运而生的。元数据最根本的作用是数据检索,它通过对数据内容、质量、状况及其他有关特征的描述,来帮助人们查询、获取、使用、管理和更新维护各类信息系统中的海量数据。元数据描述的基本对象是数据集,它可以扩展为数据集系列和数据集内的要素与属性。元数据对数据集的描述一般可以分为元数据子集、实体和元素三个层次,其中元数据元素是元数据最基本的信息单元,元数据实体是同类元数据元素的集合,元数据子集是相互关联的元数据实体或元素的集合。每个元数据子集、实体和元素均具有必选、一定条件下必选和可选三种性质,并且还具有名称、标识码、定义、性质、条件、最大出现次数、数据类型和值域八个特征。元数据的描述内容一般可以分为两级:一级元数据和二级元数据。一级元数据的描述内容为编目信息,其包含唯一标识一个数据集所需的最少元数据实体和元素。二级元数据的描述内容为八个子集,即标识信息、质量信息、数据志信息、空间数据表示信息、参照系统信息、要素分类信息、发行信息和元数据参考信息,另外还有三个可重复的实体,即引用文献信息、负责单位信息和地址信息,其包含建立完整的数据集文档所需的全部元数据实体和元素。元数据的存储形式主要有文本文件、超文本文件和关系型数据库三种。当已建立的元数据在不能满足应用需要时,可以对其作适当地扩展。建立元数据的主要任务是制定元数据标准、开发元数据的操作工具和建设元数据库。制定元数据标准其内容应包括以下部分:主题内容与适用范围、参考标准、术语、元数据层次结构、元数据分级、元数据内容和元数据扩展原则与方法。开发元数据的操作工具是编写一系列软件,这些软件须具备元数据的输入、编辑、查询、检索和显示等功能。建设元数据库要依据元数据标准来收集、整理元数据,并利用元数据的操作工具将数据录入建库。元数据对数据的生产者、管理者和使用者都十分有用,它是沟通上述三者之间的桥梁,在实现“数字城市”的信息共享中占有重要地位。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。