(一)数据质量的评价指标
数据质量是数据整体性能的综合体现,而空间数据质量标准是生产、应用和评价空间数据的依据。为了描述空间数据质量,许多国际组织和国家都制定了相应的空间数据质量标准和指标(表3-1)。空间数据质量指标的建立必须考虑空间过程和现象的认知、表达、处理、再现等全过程。
表3-1 不同标准中的质量指标和质量参数
从实用的角度来讨论空间数据质量,空间数据质量指标应包括以下几个方面:
(1)数据情况说明(Source):要求对地理数据的来源、数据内容及其处理过程等做出准确、全面和详尽的说明。
(2)完备性:要素、要素属性和要素关系的存在和缺失。完备性包括两个方面的具体指标:①多余,数据集中多余的数据;②遗漏,数据集中缺少的数据。
(3)逻辑一致性:对数据结构、属性及关系的逻辑规则的依附度(数据结果可以是概念上的、逻辑上的或物理上的),包括四个具体指标:①概念一致性,对概念模式规则的符合情况;②值域一致性,值对值域的符合情况;③格式一致性,数据存储同数据集的物理结构匹配程度;④拓扑一致性,数据集拓扑特征编码的准确度。
(4)位置准确度:要素位置的准确度,包括三个具体指标:①绝对或客观精度,坐标值与可以接受或真实值的接近程度;②相对或内在精度,数据集中要素的相对位置和其可以接受或真实的相对位置的接近程度;③格网数据位置精度,格网数据位置值同可以接受或真实值的接近程度。
(5)时间准确度:要素时间属性和时间关系的准确度,包括三个具体指标:①时间量测准确度,时间参照的正确性(时间量测误差报告);②时间一致性,事件时间排序或时间次序的正确性;③时间有效性,时间上数据的有效性。
(6)专题准确度:定量属性的准确度;定性属性的正确性;要素的分类分级以及其他关系。包括四个具体指标:①分类分级正确性,要素被划分的类别或等级,或者它们的属性与论域(例如,地表真值或参考数据集)的比较;②非定量属性准确度,非定量属性的正确性;③定量属性准确度,定量属性的准确度;④对于任意数据质量指标可以根据需要建立其他的具体指标。
(7)数据相容性(Compatibility):指多个来源的数据在同一个应用中使用的吻合和难易程度。一般来说,比例尺的不同、数据分类体系和标准的不同都会带来数据不相容问题。
(8)数据的可得性(Accessibility):指获取或使用数据的容易程度。保密的数据按其保密等级限制了使用者获得所需的数据,而公开的数据可能由于价格太高而不能获得,只能另找数据采集途径,降低了数据的质量并造成浪费。
(二)数据质量的评价方法(www.xing528.com)
1.GIS数据质量的评价方法
空间数据质量评价方法分直接评价和间接评价两种。直接评价方法是对数据集通过全面检测或抽样检测方式进行评价的方法,又称验收度量。间接评价方法是对数据的来源和质量、生产方法等间接信息进行数据集质量评价的方法,又称预估度量。这两种方法本质区别是面向的对象不同,直接评价方法面对的是生产出的数据集,而间接评价方法则面对的是一些间接信息,只能通过误差传播的原理,根据间接信息估算出最终成品数据集的质量。
直接评价法又分为内部和外部两种。内部直接评价方法要求对所有数据仅在其内部对数据集进行评价。例如在属于拓扑结构的数据集中,为边界闭合的拓扑一致性做的逻辑一致性测试所需要的所有信息。外部直接评价法要求参考外部数据对数据集测试。例如对数据集中道路名称做完整性测试需要另外的道路名称原始性资料。
间接评价法是一种基于外部知识的数据集质量评价方法。外部知识可包括但不限定数据质量综述元素和其他用来生产数据集的数据集或数据的质量报告。本方法只是推荐性的,仅在直接评价方法不能使用时使用。在下列几种情况下,间接评价法是有效的:使用信息中记录了数据集的用法,数据日志信息记录了有关数据集生产和历史的信息,用途信息描述了数据集生产的用途。
2.GIS数据质量常用评价方法
(1)敏感度分析法。一般而言,精确确定GIS数据的实际误差非常困难。为了从理论上了解输出结果如何随输入数据的变化而变化,可以通过人为地在输入数据中加上扰动值来检验输出结果对这些扰动值的敏感程度。然后根据适合度分析,由置信域来衡量由输入数据的误差所引起的输出数据的变化。
为了确定置信域,需要进行地理敏感度测试,以便发现由输入数据的变化引起输出数据变化的程度,即敏感度。这种研究方法得到的并不是输出结果的真实误差,而是输出结果的变化范围。对于某些难以确定实际误差的情况,这种方法是行之有效的。
在GIS中,敏感度检验一般有以下几种:地理敏感度、属性敏感度、面积敏感度、多边形敏感度、增删图层敏感度等。敏感度分析法是一种间接测定GIS产品可靠性的方法。
(2)尺度不变空间分析法。地理数据的分析结果应与所采用的空间坐标系统无关,即为尺度不变空间分析,包括比例不变和平移不变。尺度不变是数理统计中常用的一个准则,一方面在能保证用不同的方法能得到一致的结果,另一方面又可在同一尺度下合理地衡量估值的精度。也就是说,尺度不变空间分析法使GIS的空间分析结果与空间位置的参考系无关,以防止由基准问题而引起分析结果的变化。
(3)Monte Carlo实验仿真。由于GIS的数据来源繁多,种类复杂,既有描述空间拓扑关系的几何数据,又有描述空间物体内涵的属性数据。对于属性数据的精度往往只能用打分或不确定度来表示。对于不同的用户,由于专业领域的限制和需要,数据可靠性的评价标准并不相同。因此,想用一个简单的、固定不变的统计模型来描述GIS的误差规律似乎是不可能的。在对所研究问题的背景不十分了解的情况下,Monte Carlo实验仿真是一种有效的方法。
Monte Carlo实验仿真首先根据经验对数据误差的种类和分布模式进行假设,然后利用计算机进行模拟试验,将所得结果与实际结果进行比较,找出与实际结果最接近的模型。对于某些无法用数学公式描述的过程,用这种方法可以得到实用公式,也可检验理论研究的正确性。
(4)空间滤波。获取空间数据的方法可能是不同的,既可以采用连续方式采集,也可采用离散方式采集。这些数据采集的过程可以看成是随机采样,其中包含倾向性部分和随机性部分。前者代表所采集物体的实际信息,而后者是由观测噪声引起的。
空间滤波可分为高通滤波和低通滤波。高通滤波是从含有噪声的数据中分离出噪声信息,低通滤波是从含有噪声的数据中提取信号。例如经高通滤波后可得到一随机噪声场,然后用随机过程理论等方法求得数据的误差。
对GIS数据质量的研究,传统的概率论和数理统计是其最基本的理论基础,同时还需要信息论、模糊逻辑、人工智能、数学规划、随机过程、分形几何等理论与方法的支持。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。