首页 理论教育 公路地质灾害危险性评价:空间数据组织管理

公路地质灾害危险性评价:空间数据组织管理

时间:2023-08-21 理论教育 版权反馈
【摘要】:表7.1空间数据不同存储方式性能对比面向对象的数据库管理模式。空间数据管理的四种方式各有其优缺点,因此,在选择数据管理方式时,应根据具体情况进行选择。表7.2为这两种数据结构的优缺点比较。

公路地质灾害危险性评价:空间数据组织管理

7.1.2.1 空间数据库管理模式的发展

空间数据除了具有一般数据的特征之外,还具有诸如结构复杂、关系多样化、多尺度和多态性等区别于其他数据的特征,这些特征使得空间数据的管理远比一般数据要复杂得多,一般的商用数据库管理系统难以满足空间数据管理要求,因而围绕着空间数据管理方法先后存在有四种管理方式:纯文件模式、文件结合关系型数据库的管理模式、全关系型数据库管理模式和面向对象的数据库管理模式。

(1)纯文件管理模式。文件模式是最早采用的空间数据存储方式。GIS中的数据可分为空间数据和属性数据两类,空间数据描述空间实体的地理位置及其形状;属性数据则描述相应空间实体有关的应用信息。文件管理模式将GIS中所有的数据都存放在自行定义的空间数据结构及其操纵工具的一个或者多个文件中,包括非结构化的空间数据、结构化的属性数据等。而空间数据和属性数据两者之间的关系可通过标识码(ID)来建立。最早的GIS应用系统——1962年由加拿大土地调查局建立的加拿大地理信息系统CGIS,即采用此种方式。

采用这种方法的明显优点是操作简便、软硬件投资较小。每个GIS厂商可以依据本企业内部标准定义自己的文件格式以及操纵工具,管理各种数据。而这种管理的缺点也是显而易见的:不便于文件管理,若其中一个文件被意外删除,或者地图数据复制过程中遗漏一个文件,都会破坏地图数据,数据稳定性不好;对于数据的安全、共享以及对数据并发操作和事务处理都难以提出行之有效的措施。

(2)文件结合关系型数据库的管理模式。通常存储属性数据要比存储空间数据要简单得多,也易于现有商业数据库实现,GIS应用可以利用关系数据库来存储属性数据,而空间数据保持原有文件结构不变,通过在空间数据和属性数据之间建立关联的方法架起二者的桥梁。这种文件结合关系型数据库管理(混合型管理)空间数据是目前绝大多数商用GIS软件所采用的数据管理方案,并已经得到广泛应用。国内、刘仁义等人设计的基于AutoDesk Map Guide的互联网土地信息系统、基于Intergraph Geo Media Web Map的病虫害信息系统即采用此种方法。这种管理模式的主要缺陷在于很难用关系模型来表达空间位置与对象之间的关系。同时,维护空间数据和属性数据的一致性也成了一个亟须解决的问题。

(3)全关系型数据库管理模式。此种模式使用统一的关系型数据库管理空间数据和属性数据,空间数据以二进制数据块的形式存储在关系型数据库中,从而形成全关系型的空间数据库。GIS应用程序通过空间数据访问接口访问空间数据库中的空间数据,通过标准的数据库访问接口访问属性数据。全关系型数据库管理模式提供统一的访问接口(SQL)操作分布的海量数据,使用通用接口实现属性数据的共享,并且支持多用户的并发访问、安全性控制和一致性检查。这些正好是构造企业级地理信息系统所必需的。

但是由于空间数据的不定长,采用全关系型数据库管理会造成存储效率低下,此外,现有的SQL并不支持空间数据检索,需要软件厂商自行开发空间数据访问接口。如果要支持空间数据共享,还需要对SQL进行扩展。

表7.1为基于文件方式和基于空间数据库的性能对比表,从中可以看出基于关系型空间数据库具有的诸多优点。

表7.1 空间数据不同存储方式性能对比

(4)面向对象的数据库管理模式。为了克服关系型数据库管理空间数据的局限性,提出了面向对象的数据模型,依此提出了面向对象数据库。应用面向对象数据库管理GIS的空间数据,可以通过在面向对象数据库中增加处理和管理空间数据功能的数据类型以支持空间数据,包括点、线、面等几何体,并且允许定义对于这些几何体的基本操作,包计算距离、检测空间关系、甚至较复杂的运算,如缓冲区分析、叠加符合分模型等,也可以由对象数据库管理系统“无缝”地支持。

对象数据库管理系统提供了对于各种数据的一致的访问接口以及部分空间服务模型,不仅实现了数据共享,而且空间模型服务也可以共享,使GIS软件可以将重点放在数据表现以及开发复杂的专业模型上。不过,目前对象数据库管理系统远未成熟,许多技术问题仍需要做进一步的研究。

地理信息系统对数据的管理经历了从文件系统到“双数据库”系统、全关系数据库再到对象关系数据库系统的发展历程。空间数据管理的四种方式各有其优缺点,因此,在选择数据管理方式时,应根据具体情况进行选择。要建立一个业务化运行的系统,应该采用相对成熟且有利于空间数据管理的方法。

7.1.2.2 空间数据结构与组织

地理信息系统空间数据结构就是指空间数据的编排方式和组织关系。空间数据编码是空间数据结构的实现,目的是将图形数据、影像数据、统计数据等资料,按一定的数据结构转换为适用于计算机存储和处理的过程。

一种高效率的数据结构应具备以下条件:

(1)能够正确表示要素之间的层次关系,便于不同数据连接和覆盖。

(2)正确反映地理实体的空间排列方式和各实体间相互关系。

(3)便于存取和检索。

(4)节省存贮空间,减少数据冗余。

(5)存取速度快,在运算速度较慢的微机上要达到快速响应。

(6)足够灵活性,数据组织应具有插入新的数据、删除或修改部分数据的基本功能。

GIS软件支持的主要空间数据结构有矢量数据结构和栅格数据结构两种形式。两类结构都可以描述点、线、面这三种基本的空间对象类型。表7.2为这两种数据结构的优缺点比较。

表7.2 矢量数据模型与栅格数据模型比较

(1)矢量数据结构及其编码。矢量数据结构是地理信息系统中一种最常见的空间数据结构,它通过记录坐标的方式尽可能精确地表示点、线、面等地理实体的空间位置和形状,坐标空间设为连续,允许任意位置、长度和面积的精确定义,在一般情况下,它比栅格结构精度高得多。

对于一个矢量数据库而言,要表示真实世界的信息,必须具备:

1)定义物体的地理要素。

2)容许把描述性的信息“属性”与对应得物体联系起来。

矢量数据的编码方法主要有以下三种:

1)坐标序列法。任何点、线、面实体都可以用某一坐标系中的坐标点x,y来表示。这里的x,y可以对应于大地坐标经度和纬度,也可以对应于平面坐标系坐标x和y。对于点,则是一对坐标;对于线,则是一个坐标串;对于多边形,则是一条或多条线组成的封闭曲线坐标串,坐标必须首尾相同。

坐标法文件结构简单,易于实现以多边形为单位的运算和显示。这种方法的缺点是邻近多边形的公共边被数字化和存储两次,由此产生冗余和边界不重合的匹配误差;每个多边形自成体系,而缺少有关邻域关系的信息;不能解决复杂多边形嵌套问题,内岛只作为单个的图形建造,没有与外包围多边形的联系。

2)树状索引编码法。该法采用树状索引以减少数据冗余并间接表示领域信息,该方法是对所有边界点进行数字化,将坐标对顺序方式存储,有点索引与边界线号相联系,以线索引与各多边形相联系,形成树状结构。

树状索引编码法消除了相邻多边形边界的数据冗余和不一致的问题,邻域信息和岛状信息可以通过对多边形文件的线状索引处理得到,但是较为麻烦。

3)拓扑结构编码方法。将拓扑关系应用到数据库结构中,可以解决多边形嵌套和邻域关系问题。建立拓扑结构的方法有两种:①输入数据的同时输入拓扑连接关系;②由计算机软件从一系列相互关联的链建立拓扑结构。首先在地理数据结构中建立拓扑关系是美国人口调查局建立的双重独立地图编码系统(Dual Independent Map Encoding,DIME)。

目前的大多地理信息系统软件都具备从一系列按任意顺序和任意方向数字化的链,组成多边形拓扑结构的功能。

多边形拓扑数据结构具有其他编码所不具备的优点:把全部多边形综合成一个整体,没有重叠,数据冗余度小;全部多边形、链、属性数据均为内部连接在一起的整体单元的一部分,可以进行任意类型的邻域分析,而且能将属性数据与多边形连接进行各种分析;多边形嵌套中多边形没有限制,可以无限地嵌套;数据结构与数据收集的输入牵连不多。

(2)栅格数据结构及其编码。栅格数据结构实际上就是像元阵列,即像元按矩阵形式的集合,栅格中的每个像元是栅格数据中最基本的信息存储单元,其坐标位置可以用行号和列号确定。网格中每个元素的代码代表了实体的属性或属性的编码,根据所表示实体的表象信息差异,各象元可用不同的“灰度值”来表示。栅格数据中的实体也分为点实体、线实体和面实体,见表7.3。

表7.3 栅格数据相关概念及图示

续表

栅格数据的获取方法比较简单,即在专题地图上均匀地划分网格,相当于将一透明的方格纸覆盖在地图上,格网的尺寸大小按要求设定。根据单位格网交点归属法(中心点法)、单位格网面积占优法、长度占优法、重要性法等方法,直接获取相应的栅格数据。这类方法称之为手工栅格数据编码法,它适用于区域范围不大或栅格单元的尺寸较大的情况。但是当区域范围较大或者栅格单元的分辨率较高时,需要采用数据类型转换方法,即由矢量数据向栅格数据做自动转换。(www.xing528.com)

为了逼近原图或原始数据精度,除了采用上述的手工方法之外,还可以采用缩小单个栅格单元的方法(即增加精度),使得每个单位的栅格可以代表更为精细的地面单元。这样,在大大提高精度,更接近真实形态的同时,行、列数也将大大增加,即数据量也大幅度增加,使得数据冗余严重,为了解决这一矛盾,现在已研究出了一系列栅格数据压缩编码方法,使得用尽可能少的数据量记录尽可能多的信息。压缩编码方法可分为信息无损编码和信息有损编码两种,信息无损编码是指编码过程中没有任何信息处理损失,通过解码操作可以完全恢复原来的信息;信息有损编码是指为了提高编码效率,最大限度地压缩数据,在压缩过程中损失了一部分相对不太重要的信息,当解码时这部分信息难以恢复。

在地理信息系统中一般采用信息无损编码方法。

常用的数据压缩编码方法有以下几种:

1)链式编码(Chain Codes)。链式编码又称边界链码法。多边形的边界可表示为由某一原点开始并按某些基本方向确定的单位矢量链。基本方向可定义为东=0,东南=1,南=2,西南=3,西=4,西北=5,北=6,东北=7等八个基本方向。如果确定图7.1中的多边形的原点为像元(10,1),则该多边形边界按顺时针方向链式编码为10、1、7、0、1、0、7、1、7、0、0、2、3、2、2、1、0、7、0、0、0、0、2、4、3、4、4、3、4、4、5、4、5、4、5、4、5、4、6、6。其中前两个数字10、1表示起点为第十行第一列,从第三个数字开始每个数字表示单位矢量的方向,八个方向以0~7的整数表示。

链式编码对多边形的表示具有很强的数据压缩能力,且具有一定的运算功能,如面积和周长计算等,探测边界急弯和凹进部分都比较容易,比较适合于存储图形数据。缺点是对叠加运算较难实现,而且由于链码以每个区域为单位存储边界,相邻区域的边界则被重复存储而产生冗余。

2)游程长度编码(Run-Length Codes)。游程长度编码是按行的顺序存储多边形的各个像元的列号,即在某行上从左至右存储该多边形的始末像元列号。图7.1中多边形按游程长度编码方法的编码为

第9行 2,3 6,6 8,10 第10行 1,10

第11行 1,9 第12行1,9

第13行 3,9 12,16 第14行5,16

第15行 7,14第16行9,11

图7.1 栅格表示的一个简单区域(空白处)

由此例看出69个像元的多边形只用了22个数值就表示出来了,因此采用此种编码可以大大减少存储量,它的压缩效率很高。采用此种方法,进行网格加密时,数据量没有明显增加,且易于检索、叠加、合并等操作,但压缩和解压处理工作有所增加。

3)四叉树编码(Quadtree Encoding)。四叉树编码又称为四分数、四元数编码。它是一种更有效的压缩数据的方法。它将2n×2n像元阵列的区域,逐步分解为包含单一类型的方形区域,最小的方形区域为一个像元。图像区域划分的原则是将区域分成大小相同的象限,而每一个象限又可以根据一定的规则判断是否继续等分为次一层的象限。其终止判断是,不管是哪一层上的象限,只要划分到仅代表一种地物或符合既定要求的几种地物时,则不在继续划分,这一过程可一直分到单个栅格像元为止,四叉树编码如图7.2所示。

四叉树编码有很多优点,一是容易有效地计算多边形的数量特征,二是各部分的分辨率是可变的,边界复杂部分四叉树分级多,分辨率也高,而不需要表示细节的部分则分级少,分辨率低,因而既可精确表示图形结构,又可减少存储量。

图7.2 四叉树编码

(3)空间索引。空间索引,亦称为空间访问方法(spatial access method,SAM),就是指依据空间对象的位置和形状或空间对象之间的某种空间关系按照一定的顺序排列的一种数据结构,其中包含空间对象的概要信息,如对象的标识、外接矩形及指向空间实体的指针。作为一种辅助的空间数据结构,空间索引介于空间操作算法和空间对象之间,它通过筛选作用,大量与特定空间操作无关的空间对象被排除,从而提高空间操作的速度和效率。

空间索引的性能的优劣直接影响到GIS数据库和GIS的整体性能,它是GIS数据库的一项关键技术。常见的空间索引主要有格网索引、四叉树索引、R树和R+树空间索引等。

1)格网索引。格网型空间索引思路比较简单,容易理解和实现。其基本思想是将研究区域用横竖线条划分大小相等和不等的格网,记录每一个格网所包含的空间实体。当用户进行空间查询时,首先计算出用户查询对象所在格网,然后再在该网格中快速查询所选空间实体,这样一来就大大地加速了空间索引的查询速度。

2)BSP树索引。BSP树是一种二叉树,它将空间逐级进行一分为二的划分(图7.3)。BSP树能很好地与空间数据库中空间对象的分布情况相适应,但对一般情况而言,BSP树深度较大,对各种操作均有不利影响。

图7.3 BSP树

3)KDB树索引。KDB树是B树向多维空间的一种发展。它对于多维空间中的点进行索引具有较好的动态特性,删除和增加空间点对象也可以很方便地实现;其缺点是不直接支持占据一定空间范围的地物要素,如二维空间中的线和面。该缺点可以通过空间映射或变换的方法部分地得到解决。空间映射或变换就是将2n维空间中的区域变换到2n维空间中的点,这样便可利用点索引结构来对区域进行索引,原始空间的区域查询便转化为高维空间的点查询。但空间映射或变换方法仍然存在着缺点:高维空间的点查询要比原始空间的点查询困难得多;经过变换,原始空间中相邻的区域有可能在点空间中距离变得相当遥远,这些都将影响空间索引的性能。

4)R树和R+树空间索引。R树根据地物的最小外包矩形建立(图7.4),可以直接对空间中占据一定范围的空间对象进行索引。R树的每一个结点N都对应着磁盘页D(N)和区域I(N),如果结点不是叶结点,则该结点的所有子结点的区域都在区域I(N)的范围之内,而且存储在磁盘页D(N)中;如果结点是叶结点,那么磁盘页D(N)中存储的将是区域I(N)范围内的一系列子区域,子区域紧紧围绕空间对象,一般为空间对象的外接矩形。

R树中每个结点所能拥有的子结点数目是有上下限的。下限保证索引对磁盘空间的有效利用,子结点的数目小于下限的结点将被删除,该结点的子结点将被分配到其他的结点中;设立上限的原因是因为每一个结点只对应一个磁盘页,如果某个结点要求的空间大于一个磁盘页,那么该结点就要被划分为两个新的结点,原来结点的所有子结点将被分配到这两个新的结点中。

图7.4 R树

由于R树兄弟结点对应的空间区域可以重叠,因此,R树可以较容易地进行插入和删除操作;但正因为区域之间有重叠,空间索引可能要对多条路径进行搜索后才能得到最后的结果,因此,其空间搜索的效率较低。正是这个原因促使了R+树(图7.5)的产生。在R+树中,兄弟结点对应的空间区域没有重叠,而没有重叠的区域划分可以使空间索引搜索的速度大大提高;但由于在插入和删除空间对象时要保证兄弟结点对应的空间区域不重叠,而使插入和删除操作的效率降低。

图7.5 R+树

(4)元数据基础。元数据是关于数据的数据,用于描述数据的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。地理信息元数据是关于地理相关数据和信息资源的描述信息。它通过对地理空间数据的内容、质量、数据格式、数据采集时间和其他特征进行描述与说明。

1)GIS元数据确定的原则。建立元数据集合的目的是帮助人们理解和使用元数据所描述的数据对象。元数据的选择和组织必须遵循一定的原则,以全面描述数据对象,并方便用户使用。GIS元数据的确定需要遵循以下几个原则:

a.完整性。早期人们对元数据的理解较为简单,只有少数几个数据项。随着人们对元数据理解的深入,元数据体系趋于复杂化。例如,美国国家地球空间数据元数据标准共分7个部分,219个数据要素,内容庞大复杂。在实际的元数据设计中需要挑选出一些重要的元数据,构成核心元数据集,它应该完整地描述数据集最重要的信息。

b.准确性。各个元数据元素应该从某个侧面准确地描述数据集合的某些特性,在确定核心元数据内容时,需要对相关领域的理论与技术有全面的了解,准确而简洁地将描述数据集主要特征的数据元素整合起来。

c.结构性。地理信息元数据之间具有复杂的联系,应根据其结构联系进行合理的组织,以便对元数据进行修改或扩展时不破坏其整体结构。

d.与其他标准的一致性。由于元数据也是其他标准的高度概括,在制定元数据时,应充分考虑符合现有的国际标准与国家、行业标准,与其保持一致。

2)GIS元数据的主要内容。目前,很多国家和组织都提出了地理信息元数据的一些区域性标准,如美国联邦地球空间数据委员会(FGDC)提出的地学空间数据元数据内容标准,欧洲地图事务组织(MEGRIN)提出的GDDD数据集描述方法,加拿大标准委员会(CGSB)提出的CGSB地球空间数据集描述,CEN/TC287提出的CEN地学信息-数据描述-元数据,NASA提出的DIF,ISO/TC211提出的ISO地理信息。但到目前为止,人们对地理信息元数据并没有形成完全统一的认识,还没有一个全球性的统一标准。表7.4显示的是部分元数据标准草案的核心内容比较。

表7.4 地理信息元数据标准情况

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈