数字资源整合也可称为数字资源集成,是在各种数字资源自主性、分布性、异构性的基础上,运用各种集成技术和手段将各类数字资源集成在统一的利用环境下,实现“一步到位”的检索,让用户极其方便地利用各种数字资源,节省宝贵的时间和精力。为了能够将异构资源整合在一起,实现统一检索和访问,促进资源的发现与共享,图书馆采取了一系列解决方案,如OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)协议、Z39.50协议、跨库检索、信息链接等[13]。具体来看,资源整合的方法有以下几种。
(1)数据仓库法。其指集成系统将存储于不同地方的数据收集起来,经过分析、综合、转换等一系列数据加工处理,最后装载入本地的中心数据仓库进行统一存储。该方法的优点是资源相对稳定,在数据仓库基础上可进行信息挖掘,提供更深层次的知识服务;缺点是数据更新不及时,数据可能重复存储。DPLA、OAIster、CALIS学位论文项目通过OAI-PMH从数据提供方收割数据,并将数据存储于服务方的数据仓库中,HathiTrust项目通过FTPS将书目数据提交给Zephir[14]处理,是资源整合的数据仓库法的典型例子。
(2)联邦形式。集成系统分为客户端和服务端,客户端负责获取用户查询,获取查询后发送至各个服务器,服务器解析查询并从各自的数据源中获取结果,整合后返回给客户端,或者利用中间件模式,客户端与中间层通信,中间层负责与各服务器相互联系。该方法一般只提供只读的查询功能,执行效率不高,但是数据不会重复存储,适用于被集成的系统规模大、数据更新频繁、数据实时一致性要求高的情况。Z39.50、SRW/SRU就是属于此类集成方法的协议。INNOPAC、CALIS OPAC系统,就是将Z39.50作为中间层协议,将系统的具体实现映射到抽象模型上,实现异构系统间的交互式通信。
(3)基于本体的资源整合。本体论通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识,成为语义Web中语义层次上信息共享和交换的基础。基于本体的资源整合是基于领域本体模型对异构数字资源进行语义标注并构建统一的(元数据)知识库,从而实现对资源的统一语义检索。本体在其中的作用是提供对资源进行语义标注的词汇标准[15]。H.Wache等人将基于本体的整合方法归纳为单一本体法、多本体法和混合法三种[16]。单一本体法首先定义一个全局本体,提供一个共享词汇表作为集成时的参考,分布在各个地方的数据源都与全局共享本体相关联。多本体法是在各个异构的数据源上建立局部本体,然后在局部本体间建立映射关系。混合本体法是将单一本体法和多本体法综合,在多本体的局部本体方法上建立全局本体。本体能解决语义异构的问题,但是本体是领域相关的,对于不同领域内的资源整合较困难。(www.xing528.com)
(4)基于关联数据的资源整合。伯纳斯·李于2006年在语义网基础上提出了关联数据(Linked Data)[17]。语义网试图将数据联系起来,并产生数据与现实事物的联系,以方便人与机器阅读和理解这些数据。关联数据是第一种可行的语义网表达形式,它采用RDF数据模型,利用URI(统一资源标识符)命名数据实体,来发布和部署实例数据和类数据,从而可以通过HTTP协议揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解的语境信息。由于关联数据要求采用URI命名数据实体,并可以通过HTTP协议获取,完全自治的“数据孤岛”可通过关联数据连接起来,实现数据互联和集成。
(5)本体与关联数据驱动的图书馆信息资源语义整合框架[18]。欧石燕将本体与关联数据结合提出了此方法,旨在实现不同层次和范围的资源整合。该整合框架有3层结构,第一层是基于本体的文献资源整合,采用混合本体法实现异构元数据的语义互操作,首先构建一个共享的核心元数据本体,然后针对特定资源构建专门元数据本体;第二层基于关联数据的图书馆信息资源整合,采用关联数据发布图书馆信息资源使得每个资源可通过HTTP协议直接访问,并可沿着RDF链接访问其他相关资源;第三层是与外界资源的链接与集成,采用关联数据与其他图书馆的关联数据或外界的关联数据(如DBPedia)相关联。
除了以上几种典型的整合方法,还有诸如中国知网的跨库检索,谷歌、百度等搜索引擎运用自己的计算机程序从网上搜集信息,为用户提供网页连接组合等整合方法;通过提供应用程序接口方式(API)与其他系统整合也是一种常用的整合方式。基于GIS的应用,还可通过将不同数据资源与GIS整合。在实践中,图书馆会根据自身需求采用不同的整合方法,有时也会组合多种方法实现整合的目的,例如美国数字公共图书馆DPLA项目采用了数据仓库法,是基于本体、关联数据的整合。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。