首页 理论教育 CADAL数字图书馆关联数据技术应用研究

CADAL数字图书馆关联数据技术应用研究

时间:2023-10-27 理论教育 版权反馈
【摘要】:利用关联数据扩展资源发现服务。利用关联数据在学术研究和学术交流中发挥更大的作用。目前,已经有一些机构仓储软件开始支持语义服务和关联数据,通过为仓储内的资源提供统一的URI标识以及资源之间的关系,实现对语义数据的存储和语义服务。关联数据有助于实现一次写入、多次使用。关联数据有助于在更大范围内提供开放扩展服务,如在全国范围内,在跨越所有同类型的图书馆范围内。

CADAL数字图书馆关联数据技术应用研究

关联数据(linked data)概念由Tmi Berners-Lee于2006年首次提出,关联数据提出的目的是构建一个计算机能理解的具有结构化和富含语义的数据网络,而不仅仅是人能读懂的文档网络,以便在此基础上构建更智能的应用。关联数据通过网络把以前没有关联的相关数据连接起来,成为推动语义Web发展的重要力量之一,近年来逐渐得到学术界、工业界及政府部门的广泛关注,包括BBC、《纽约时报》、MIT、IEEE、HCLS、美国国会图书馆等在内的机构纷纷加入关联数据的出版发布行列。2007年5月,W3C的关联开放数据运动(linking open data,LOD)正式启动,其宗旨是号召人们将现有数据发布成关联数据,并将不同数据源互联起来。在过去的3年中,越来越多的数据提供者和Web应用开发者将他们各自的数据发布到Web上,形成了一个巨大的数据Web。Google和Yahoo等搜索引擎已经开始抓取关联数据,并利用关联数据丰富其检索结果。[2]

随着关联数据的不断增加,不仅减轻了整合分布式异构数据源的复杂性,而且推动了图书馆基于关联数据的新应用。资源发现对于图书馆服务是非常重要的,关联数据为图书馆的资源发现服务提供了良好的途径。关联数据创造了把图书馆的资源和外部世界相互连接起来的机会,可以增强和扩展图书馆的发现平台,以及支持图书馆在学术交流环境下作为创建者和出版者的作用。目前,图书馆领域展开的或者是可以运用到数字图书馆的基于关联数据的Web应用主要集中在以下几个方面:

(1)将图书馆资源发布为关联数据。作为新一代语义互联网的基础,关联数据具有非常广泛的应用前景。W3C宣布,SKOS实现了全面关联数据化,搭建了知识组织系统(如分类表、叙词表)到关联数据之间的桥梁,这对于图书馆界来说意义深远。目前,已经有一些图书馆开始采用RDF和关联数据,如瑞典国家图书馆、美国国会图书馆、OCLC[3]德国国家经济图书馆等。另外,德国国家图书馆计划启动将权威文档发布为关联数据的项目,欧洲核子研究中心图书馆也即将开展相关的关联数据项目。

(2)利用关联数据扩展资源发现服务。许多图书馆通过实施资源发现服务(如Encore,Prmio,AquaBrowser,Endeca等),扩展其目录检索界面。资源发现服务可以浏览动态更新的结果,展示更多的馆藏信息。但在浏览和精炼结果的深度方面还具有一定的局限性,因为它主要是通过主题标目和MARC记录里的其他数据来实现的,如Library Thing,Syndetic Solutions等为图书馆提供目次、图书封皮和评论的链接。这种方法仍然局限于书目层次上的信息。数据被导入目录中,或是链接到具体的记录上。记录并不提供基于主题的信息,或是关于地点和作者的更详细的信息。虽然可以提供更多的额外的关于主题、作者的信息,但是如果没有链接到特定的馆藏,对于用户则是不可见的。扩展检索界面的主要目标是要超越图书馆资源,关联数据可以为扩展书目数据提供结构化的数据基础,为用户提供新的资源发现和访问服务。关联数据允许图书馆关联到更广泛的信息资源,并不局限于资源本身的信息,可以扩充地点、人员等信息。通过增加提供信息的范围,不仅可以帮助用户判断是否是所需要的图书、DVD或期刊,还可以帮助用户获取图书馆以外的信息。这似乎是要让用户远离图书馆的资源,但其实并不是,图书馆还可以将自己的资源发布为开放关联数据,使用户再链接回图书馆。[4]

(3)利用关联数据实现数据融合与语义检索服务。随着数据的交换和再利用的不断增多,从科学实验数据扩大到地理信息的集成融合,图书馆同其他组织进行数据的识别和交换越来越容易,数据可以重新使用和组织的方法也越来越多。随着图书馆对数据融合的重视,图书馆员开始承担起帮助研究者管理他们创建的数据的责任。图书馆需要保存这些数据,并提供给社会使用。越来越多的图书馆将在数据融合方面发挥更大的作用,图书馆与博物馆、数据存储机构之间的合作将越来越紧密。

(4)利用关联数据在学术研究和学术交流中发挥更大的作用。图书馆越来越多地参与了出版和学术交流过程中的不同阶段的活动。例如,联络馆员帮助研究者发现他们研究成果的引文影响力。同样,图书馆员也开发和利用机构仓储系统来帮助机构保存、管理和再利用那些已经出版的和没有出版的研究资料。目前,已经有一些机构仓储软件开始支持语义服务和关联数据,通过为仓储内的资源提供统一的URI标识以及资源之间的关系,实现对语义数据的存储和语义服务。另外,类似于其他数字图书馆资源集合,机构仓储也需要考虑系统的互操作性,不仅是同其他机构仓储之间的互操作性,而且更重要的是同其他类型服务之间的互操作性,关联数据也会在应用系统的互操作性方面提供更好的支持。[5]

(5)跨机构的关联数据的开放与复用。关联数据有助于实现一次写入、多次使用。图书馆为了多种目的重复使用书目数据,如产生新到资源列表和按照主题或课程推荐资源等。关联数据是结构化的,可以提供快速的再利用。关联数据有助于在更大范围内提供开放扩展服务,如在全国范围内,在跨越所有同类型的图书馆范围内。

关联数据的发明人蒂姆·伯纳斯·李(Tim Berners Lee)为关联数据总结了4个原则,很好地概括了上述关联数据的诸多特性:

(1)使用URI作为任何事物的标识名称,不仅是标识文档;

(2)使用HTTP URI,使任何人都可以参引(dereference)这一全局唯一的名称;

(3)当有人访问名称时,以RDF形式提供有用的信息;(www.xing528.com)

(4)尽可能提供链接,指向其他的URI,以使人们发现更多的相关信息。

刘炜等人认为,其中第三和第四点要求RDF文件包含有用信息以及尽可能多的URI,这就要求关联数据的RDF文件尽可能不使用“空白节点(blank nodes)”和少使用普通“文字(literal)”。“空白节点”是没有全局ID的本地资源(没有定义命名域的URI,如ISBN、DOI),“文字”指一个字串值(可以有类型以及语言属性),由于这两种描述方式都不能用来指代“资源”,因此,过多地使用“空白节点”和“文字”不能起到数据(即资源)关联的作用,实现关联数据的目的。

W3C(世界万维网协会)对数据的关联程度进行了定义,提出了5个“星级”的渐进标准。

一星:以任何开放协议和格式发布于万维网。

二星:以一种机读格式,如excel表格格式而不是扫描图片格式发布于万维网。

三星:以一种开放而非私有的格式,如CSV而不是excel发布于万维网。

四星:采用开放格式,并以W3C的开放标准进行标识和描述(即URI+RDF),使人们可以链接。

五星:采用开放格式,并以W3C的开放标准将数据以URI进行标识,以RDF进行描述,并尽可能引用别人以URI+RDF发布的数据,从而为数据提供一种共同的上下文语义。

关联数据的应用在数字图书馆知识服务中的应用主要有:①支持知识提问。能够直接利用SPARQL语言进行知识提问,机器自动解决诸如“30年代在上海大厦下榻过的外国知名人士”这样的查找。②提高查准率。能够提供更准确的查找,许多查找是基于概念而非基于语词的。③提供知识链接。能够提供维基百科等外部知识的链接,或将外部知识库整合进入图书馆的查询系统。④直接获取知识。书目库本身就是一个知识库,通过越来越丰富的语义链接,常常能够直接获取包含知识标注的数字资源。⑤提供扩展查询。通过概念的相关关系提供强大的知识导航,实现知识的浏览功能,并支持各种扩展检索。⑥提供规范有序的知识体系。经过各类规范知识体系(如语义化的各类KOS)的标引,图书馆的资源库可以映射为有序的知识空间。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈