数据网络是一个社会系统,因此,数据发布和数据使用者均非数据集成方案中的唯一成员——第三方也可能为数据整合工作作出贡献。这些第三方可以是:词表维护者,他们可以发布词表链接从其词表至其他词表的相关术语;工业或科学社区,他们可以定义所感兴趣领域中常用词表间的映射;关联数据用户,他们已经在身份识别或图式映射方面进行了尝试,并希望以网络识别或词表RDF链接的形式共享其工作成果。
因此,数据Web与其他数据集成环境的一个主要区别在于,数据Web是一个各方以RDF链接形式进行数据集成工作成果共享的平台。这意味着,整个数据集成工作在各方之间分担。
(1)开放式方法的不足
这种开放式方法的缺点在于,所提供链接的质量是不确定的。因此,信息使用者需对其进行通盘考虑,决定愿意接受哪些链接。根据不同的应用领域和需集成数据集的数量,这个决定可以手动进行(评价映射而非自己生成,使代价减轻许多),也可以根据数据质量评估启发式来进行。数据web为数据使用者提供访问大量实例数据的条件,极大地降低了数据使用者在验证以及创造链接等任务方面的开销。根据Halevy有关数据不合理有效性的研究结论,使用者可以利用简单的多选、投票等技术,或更先进的机器学习和数据挖掘的方法来验证数据集成提示,并从数据中学习新的对应内容。(www.xing528.com)
(2)数据异质性
网络上数据异质性如何随着时间的推移而减少也是一项有意思的研究课题。Franklin、Halevy和Maier已经认识到,在涉及数以千计的数据源的大规模整合方案中,它是不可能的,或者至少会代价高昂难以承受。因此,他们创造术语“数据空间”,并赋予了其含义,为异构数据共存提供了信息系统,该系统不需要为统一图式而进行前期投资。在这样的系统中,以一种pay-as-you-go的方式实现数据集成,倘若不存在或仅有少数映射已经被添加到系统中,应用只能以非集成的形式显示数据,只能回答简单的查询,甚至只提供文本搜索功能。然而,一旦随着时间的推移向生成映射投入更多精力,应用可以进一步集成数据,并提供更好的查询结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。