关联数据的价值主要来源于当下的网络数据共享和重用机制。数据的可重用性的一个关键因素是良好结构的程度。数据结构越是规范、定义良好,人们就越容易创建工具对其进行可靠处理以重用。
虽然大多数网站有某种程度的结构,但创建网站所用的语言HTML面向的是结构化文本文件,而非数据。当数据被混合到周围的文字,软件应用程序很难从HTML页面提取结构化数据片段。
一个在Web上提供结构化数据的较通用方法是Web API。网络API提供了简单的查询通过HTTP协议访问结构化数据。这些API中较好的例子包括亚马逊的产品广告API和Flickr的API。
Web API的出现导致小型、专门应用得到爆炸性增长。这些应用对每个数据来源通过特定数据提供者API访问,实现多来源数据结合。尽管以编程方式访问结构化数据的好处不容置疑,但为每个数据集建立一个专门API的做法存在一定的问题。因为这会形成阻碍,使得每个新数据集整合到应用程序中需要巨大的努力。每一个程序员都必须了解从每个API检索数据的方法,还要编写自定义代码从每个数据源访问数据。
Web API经常提供结构化数据格式(如XML和JSON)表示的结果。这些格式得到大量编程语言的广泛支持。然而,从网络的角度来看,它们亦有一定的局限性。此局限性与HTML相比,便可加以解释。HTML规范中定义的锚元素“a”,href是其重要属性之一。两者一起使用时,锚标签和href属性表示一个来自当前文档的导出链接。通过编程使Web用户代理(如浏览器和搜索引擎的抓取工具)识别此组合的重要性,补充生成一个用户可点击的链接,或者直接遍历链接,以便检索和处理所引用的文件。这是链接指示标准语法支持的文件间连接,使得文档Web得以实现。与此相反,大多数的Web API所返回的数据中并没有相当于HTML锚标签和href属性,用以指示找到相关数据应遵循的链接。(www.xing528.com)
此外,许多Web API仅在局部范围使用标识符来识别有趣的项目,例如产品识别码等,而在离开特定的API的情况下,这是毫无意义的。在此情况下,没有标准机制来规范在其他返回数据描述中指向一个API所描述的项目。
因此,从Web API返回的数据通常以孤立的片段存在,缺乏可靠的前向链接以导向相关数据。因此,尽管Web API使网上数据可供访问,但它们没有把数据通过可连接,从而将可被发现的形式,真正放入网络。
回到与HTML的比较,类似的情况需要一个搜索引擎以查询所有的Web文件的先验知识,才能够组装其索引。为了提供这种先验知识,每位Web发布者均需向各搜索引擎注册每个Web页面。任何人都可以根据自己的意愿为Web添加新的文件,这些文件会被搜索引擎或人类通过浏览器等方式自动发现。这些方式曾是历史上Web爆炸式增长的主要驱动力。链接因之易于发现的相同原则可适用于网络上的数据,而关联数据为实现这样的链接提供了技术解决方案。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。