在链接和映射缺乏的情况下,关联数据应用(如Tabulator、Marbles、Sindice、Falcons)以一种集成程度差强人意的方式显示数据。待日后更多的精力投入在网络上生成和发布映射之时,关联数据应用可以发现这些映射,以之进一步实现Web数据集成,并提供更复杂的功能。因此,根据Franklin、Halevy及Maier提出的定义,可将数据Web视之为一个数据空间,而区别在于数据空间的分布式和全局规模特性。
(1)数据网络对数据集成过程的影响
数据Web依赖于一个渐进的(即随着时间的推移更紧密的集成)、社会的(即数据发布者,第三方可参与建设)的数据集成方法。为了强调这个集成过程的社会维度,可以称为somebody-pays-as-you-go集成方式。
数据集成过程充满乐趣。假以时日,词表复用、RDF链接的形式的集成提示以及关系挖掘会实现关联数据的最终目标,即能够以一个单一全局数据库的方式查询整个网络。
(2)关联数据未来潜力
以上内容主要介绍关联数据的概念和基本原则。并分析URIs,HTTP,RDF等支持技术。总体而言,这些技术和原理令编织数据进入网络的发布行为具有了一种独特风格——此独特特性使关联数据面向严谨、蕴藏无限潜力的Web。这种与Web的完全整合,本身即有开放和社区驱动标准的支持,还能通过关注数据发布者面向未来的资产,为其提供保护功能。
(3)关联数据与数据网络
关联数据已经得到众多数据发布者的支持,他们共同构建了一个规模庞大的数据Web。在这样做时,众多数据发布者已经证明了关联数据这种网上数据发布方法以及为其提供支持的日趋成熟的软件平台和工具集的可行性,因此支持这项数据发布。工具的开发不只依据标准和规范,还参考相关领域的最佳实践。这节的目的是反映关联开放数据项目出现以来的最佳实践并加以分析,以期为其他研究者提供参考。(www.xing528.com)
(4)关联数据的优势
使用关联数据的网络方式是关联数据能够超越众多不同数据发布计划的唯一优势。本节对于不同的架构下关联数据的使用方法进行了基本探讨。在众多受到欢迎的方法中,难免会出现一些共同的要求和软件组件。它们可反映关联数据的Web开放、混乱、矛盾环境中的主要特点和功能。
(5)关联数据环境下的挑战
大型跨国公司目前都面临着与关联数据环境下相类似的挑战。他们维护着成千上万的独立集群,这些集群涉及各部门、附属公司及新收购公司的数据库。这些公司还要努力挖掘其数据资产的潜力。因此,正如传统的Web技术已被广泛应用于内网一样,关联数据具有很大潜力可能在大型机构中作为轻量级、按需支付的数据集成技术得以应用。不同于需要昂贵前期投资为全局视图建模的数据仓库技术,关联数据技术使公司以相对较少的代价建设数据空间。由于这些数据空间正在使用,公司可以逐步投资,建立数据链接、共享词表或数据源之间的图式映射,以提供更深层次的数据整合。
(6)基于关联数据的数据空间
主要的网络公司正紧锣密鼓地建设这样的数据空间。谷歌、雅虎和Facebook都开始连接用户、地理和零售的数据,并开始在其应用程序中使用这些数据空间。与人人皆可访问的开放网络相反,如何利用这些新兴数据空间是由公司个体决定的——是否造福社会整体。因此,即使在今天,尽管增强Facebook个人主页效果或上传数据库到谷歌Fusion Tables要比发布关联数据容易许多,但发布关联数据的努力用得其所,因为它对Web本身到来时深刻影响社会未来的公共数据资产建设大有助益。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。