首页 理论教育 探索数据溯源的重要性和应用

探索数据溯源的重要性和应用

更新时间:2025-01-09 工作计划 版权反馈
【摘要】:此时,数据的正确性需要被验证,要求科学家在发布数据的同时发布其溯源元数据,包括数据的演变历史、起源和所有权。这一过程就称为工作流溯源[59]。早期的数据溯源通常细分为Where和Why型溯源[60]。2010年出现了W7模型[53],该模型是指数据溯源信息应该包括Who、When、Where、How、Which、What、Why七个部分。目前,数据溯源追踪的主要方法有标注法和反向查询法。反向查询法,有的文献也称逆置函数法,主要用于数据库追溯。

溯源一词源自法语“provenir”,意思是出处、发源。原指有关历史对象的所有权、保管和位置的编年史[58]。最初,这一术语常用于描述艺术品、手稿或珍藏书等的历史或系谱;现在,它已经广泛应用在考古学、古生物学、档案、手稿、书籍和计算机等领域。在计算机领域,溯源也称为世系(lineage)或者谱系(pedigree),用来描述数据的起源或者出处。数据溯源可以划分成两种类型,即粗粒度的工作流溯源(workflow provenance)和细粒度的数据溯源(data provenance)。

工作流(workflow)技术发端于1970年代中期办公自动化领域的研究,1990年后,相关技术逐渐成熟起来,也使得工作流系统的开发与研究进入了一个新时期。工作流是对工作流程及其各操作步骤间业务规则的抽象、概括和描述。越来越多的科学家使用工作流系统设计和运行科学实验。工作流执行的结果数据集可能需要与报告或论文一起发布,以便为其他科学实验的输入提供重复使用。此时,数据的正确性需要被验证,要求科学家在发布数据的同时发布其溯源元数据,包括数据的演变历史、起源和所有权。这一过程就称为工作流溯源[59]

细粒度的数据溯源是指某个转换步骤结果中的片段数据(single pieces of data)是如何衍生的,它更加关注结果数据集的推导。举例来说,如果结果数据集是一个关系数据库,那么关系数据库中的元组溯源可能是来源中的一个元组或者数据元素。早期的数据溯源通常细分为Where和Why型溯源[60]。之后,在此基础上引入了How-provenance。2010年出现了W7模型[53],该模型是指数据溯源信息应该包括Who、When、Where、How、Which、What、Why七个部分。

目前,数据溯源追踪的主要方法有标注法和反向查询法。此外,还有通用的数据追踪方法,双向指针追踪法,利用图论思想和专用查询语言追踪法,以及以位向量存储定位等方法[61]。(www.xing528.com)

标注法是一种简单且有效的数据溯源方法,使用非常广泛。通过记录处理相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,如背景、作者、时间、出处等,并让标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。采用标注法来进行数据溯源虽然简单,但存储标注信息需要额外的存储空间。

反向查询法,有的文献也称逆置函数法,主要用于数据库追溯。其基本思想是:在一定的限制条件下,可以通过分析数据库操作语句得出任意粒度的逆查询语句,追溯数据起源,换而言之,只要设计好逆置机制就可以追踪。与标注法相比,它比较复杂,但需要的存储空间比标注法要小。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈