空间数据质量问题实际上是伴随着数据的采集、处理和应用过程而产生并表现出来的。根据这一过程,可以把空间数据质量问题划分为三个阶段:第一阶段是实地空间数据的测量、采集和制图;第二阶段是空间数据库的建库,包括数字化、数据录入和数据转换;第三阶段是空间数据的操作、处理、分析、输出和应用。每个阶段都包含前一阶段所带来的原有误差,并增加了本阶段所引入的新的误差因素(表3-2)。
表3-2 空间数据的部分误差来源
1.空间现象自身存在的复杂性、不稳定性和模糊性
空间数据质量问题首先来源于空间事物或现象自身存在的复杂性、不稳定性和模糊性,主要包括空间位置、分布和过程、专题和属性及发生时间区段上的不确定性、不稳定性或模糊性,如某种土壤类型边界划分的模糊性,金属矿体与围岩边界的不确定性,社会经济现象的复杂性等。因此,空间数据存在质量问题是不可避免的。
2.空间数据的获取和表达所产生的质量问题
由于原始数据的获取产生空间数据质量问题大体上可以归结为三方面:其一是人们对空间对象的特征、变量概念认识上的不确切或不一致,必然导致获取、量测、记录数据上的差异、不准确。例如,对一些地理、地质、环境生态现象认识上的模糊性或不一致性;其二是测量仪器、手段和方法的不完善、不精确以及观测时外界条件的影响,造成测量成果的误差或偏差,例如GPS定位或导航产生的误差、经纬仪测量角度产生的误差,遥感图像数据在地物几何位置和光谱特征上的偏差等;第三方面,自然界和社会经济现象中事物过程的类型和特征千差万别,它们在空间和时间上的表现形式或者为连续性、或者为离散性,或者两者兼有,但是目前GIS对它们的描述都是采用点、线、面、体或各种符号的图形要素形式,这里必然存在图形表达上的合理性问题和准确性问题。此外,多数空间数据都记录在纸质或聚酯材料地图上,这类物理介质会产生变形、磨损,导致图形要素的变化、差错。
以上两大因素产生的空间数据质量问题可以归纳为两种类型:第一类可称为明显的质量问题,包括:①数据记录的年代、日期的不确切,不齐全,或过于陈旧;②数据的空间覆盖范围(统计区域)偏小或偏离;③地图比例尺偏小或不齐全;④观测点、数据点密度不够;⑤数据格式问题;⑥数据的可访问性或可达性问题,由于国家或地区之间、部门之间的保密或阻隔,许多数据无法获得。第二类属于观测值、量测值的精度问题,来源于原始观测、记录值的误差,包括粗差、系统误差。
3.空间数据处理过程中产生的空间数据质量问题
在空间数据处理过程中,很多操作都会带来误差,降低空间数据的质量。
(1)地图数字化和扫描后的矢量化处理。数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。
(2)投影变换。地图投影是三维地球椭球面或球面到二维平面的拓扑变换,在不同投影方式下,地理特征的位置、面积和方向的表达会有差异。确定空间数据投影类型的主要依据是:数据的用途、数据的专题内容、比例尺大小、数据表达空间区域的形状和大小、所处空间的地理位置及其他特殊要求。(www.xing528.com)
(3)数据格式转换。在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性。
(4)数据抽象。在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,它包括知识性误差(例如,操作符合地学规律的程度)和数据所表达的空间特征位置的变化误差。
(5)建立拓扑关系。拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。
(6)与主控数据层的匹配。一个数据库中,常存贮同一地区的多个数据层,为保证各数据层之间在空间位置上的协调性,一般建立一个主控数据层以控制其他数据层的边界和控制点。在与主控数据层匹配的过程中会存在空间位移,导致误差的出现。
(7)数据叠加操作和更新。数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。
(8)数据集成处理。指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现。
(9)数据的可视化表达。数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差。
(10)数据处理过程中误差的传递和扩散。在数据处理的各个过程中,误差是累积和扩散的,前一过程的累积误差可能成为下一阶段的误差起源,从而导致新的误差的产生。
4.空间数据应用中产生的空间数据质量问题
在空间数据使用的过程中也会产生空间数据质量问题,主要包括如下两个方面:
(1)对数据的解释过程。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同。例如,对于土壤数据,城市开发部门、农业部门、环境部门对某一级别土壤类型的内涵的理解和解释会有很大的差异。处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。
(2)缺少文档。缺少对某一地区不同来源的空间数据的说明,诸如缺少投影类型、数据定义等描述信息。这样往往导致数据用户对数据的随意性使用而使误差扩散开来。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。