2.6.3 面向服务的数字图书馆信息网格
前面从不同角度、不同应用探讨了网格技术在数字图书馆中的应用可能性,同时有些项目中提出了系统的体系框架,但多数项目没有实现原型系统的设计。从这些项目可以看出,数字图书馆信息网格并没有一个统一的创建标准,网格技术在很多方面为数字图书馆的创建提供了借鉴。这里我们主要谈谈基于开放网格服务体系和Web服务资源框架构建的数字图书馆信息网格。
1.核心思想
数字图书馆信息网格可以采用这种体系结构:所有的数字图书馆通过“服务”的形式发布自己系统的功能,例如检索、元数据处理等,这些服务可以采用不同的语言、不同的编程体系实现,而只需遵循网格平台的接口标准。发布的服务由网格平台统一注册和管理,而用户的请求则会根据平台中的服务体系结构和调度策略被自动导向相应服务提供者,即数字图书馆,数字图书馆取得用户所需资源,将结果反馈给平台,最终反馈给用户。因此服务管理在整个结构中起着非常重要的作用,它是整个框架中信息资源得以共享的核心所在。
2.服务管理内容
在数字图书馆信息网格中,服务管理主要涉及下面几个方面内容,同时可以参考借鉴已有的网格技术用于数字图书馆信息网格。
(1)服务描述、注册和发布
数字图书馆信息网格中会存在众多分布、动态的网格服务(各数字图书馆发布的),网格服务信息分布于网格中不同的位置。这时就需要一种机制实现网格服务信息一定程度的聚集和集成,即各数字图书馆向网格平台注册其网格服务信息,发布网格服务的存在。这种发布首先应该有一种统一的服务描述机制,各馆遵循统一服务描述语法,包括描述项目、描述规则以及描述方案等。同时应该有适用的注册发布软件平台,这样各数字图书馆才能够轻松地将自己的服务提交给平台管理。
目前常用的服务描述方法有Globus资源描述语言RSL、服务描述语言WSDL和资源描述框架RDF。RSL是Globus 3中设计的一种简单的资源描述语言。Globus资源管理框架中的不同组件之间通过RSL的描述完成管理功能,RSL提供一个框架性的语法描述,以组成复杂的资源描述,并与系统中的其他组件协调工作。WSDL是万维网联盟用来描述万维网服务接口的一种描述语言。WSDL定义了一系列的标记,力图做到描述的服务接口独立于具体的实现平台,在任何平台下都可以调用。RDF是万维网联盟W3C提出的一个描述资源的标准。它用于表达资源的元数据,资源的具体描述可以是任何形式,既可以用XML语言描述,也可以用其他描述方法,Globus 4就是采用的XML语言对服务进行描述的。RDF可用于资源发现、数字图书馆等应用领域。同时RDF也是语义服务描述的主要手段。
(2)服务发现
服务的统一描述、注册和发布其实是为了服务的发现。服务发现是网格平台服务管理的一个核心内容,应能够保证通过提供查询支持,高效地实现符合用户要求的服务发现,即能够快速找到能够满足用户请求的平台中所有服务的信息。
目前服务发现的主要方法有UDDI、MDS等。统一描述、发现与集成协议UDDI是实现Web服务商业注册中心的标准规范。它同时定义了Web服务发布与发现访问协议的实现标准。UDDI提供了一种基于分布式的商业注册中心的实现方法,商业注册中心维护企业和企业提供的Web服务的全球目录,该目录基于通用的XML格式,UDDI商业注册中心在逻辑上是集中的,在物理上是分布式的,由多个根结点组成,相互间根据一定规则进行数据同步[63]。
Globus2和Globus3中的MDS2、MDS3则基于轻型目录访问协议LDAP(Lightweight Directory Access Protocol),服务通过目录形式呈现给用户和信息提供者,对象类的定义和MDS的配置均呈树状结构。MDS2根据用户请求,在自己维护的LDAP数据库中为其查找能够匹配的资源,如果本地信息不能满足,可向上层转发。而在MDS3中,它遵循OGSA的设计原则,每一个网格服务在生成一个实例时,都由一个名为Factory的服务赋予一个唯一的Handle,称为GSH(Grid Service Handle)。GSH中并不包含服务的详细信息,用户在调用服务前,一个名为HandleResolver的服务会对用户提交的GSH进行解析,使用户能够绑定到资源。每个网格服务都必须实现一个名为FindServiceDate的接口。通过该接口,用户可以访问到该服务的详细信息,这些信息被称为GSR(Grid Service Reference)[64]。
Globus4中的MDS是一个“协议沙漏”,它定义了Globus4中信息获取和传递的标准协议。它通过服务接口将所搜集的信息提供给用户,用户可以向MDS查询信息,也可以订阅感兴趣的资源属性,即当所订阅的资源属性发生变化时用户可以得到通知。对底层信息提供者来说,MDS4提供了标准的注册接口,使信息提供者有资格将信息提供给MDS4,信息提供者既可以是Globus服务(GRAM,RFT,RLS),也可以是集群监控软件(Ganglia,Hawkeye)或队列系统软件(PBS,LSF)等这些非Globus服务。对于注册到MDS4中的信息提供者,其中是Globus服务的,将通过Web Service标准的订阅注册通知接口被选择收集;非Globus服务的,将通过GLUE Schema的映射机制被采集[65]。
Condor是威斯康辛(Wisoconsin)大学开发的高性能网络计算环境下的资源管理系统,Condor的Matchmaker是一个典型的不依赖全局命名的资源共享系统。资源描述和请求被发送到一个中央服务器上,由服务器负责匹配请求和资源信息。Condor的特点是资源不再由一个唯一的标识符区分,而完全依赖属性的描述[66]。
(3)服务调度
在接受用户的请求任务并分析该任务的资源需求和处理需求后,网格平台会进行服务发现,发现的结果是符合用户此次请求任务的服务列表。如何将用户的任务分发、调配到这些服务处理并且将传回的结果进行整合是服务调度的主要内容。
目前关于服务调度主要有如下几种模型:基于“超级调度者”的方法、基于市场的方法、基于发现的方法以及由这几种方法组合的混合技术。用于网格环境的调度项目和系统主要有AppLes、Nimrod-G、Condor-G、基于知识的元调度器(KB Meta scheduler)、PBS、LSF与Silver/Maui等[67]。其中AppLes的调度算法集中高效的数据协同定位,具有一定的适应性,另外采纳了预测模型。Nimrod-G中的调度侧重于时间期限和经济模型。Condor-G处理高吞吐率计算来处理可控的局部网络环境,其匹配调度器的目的是处理单个任务并且是无关调度。基于知识的元调度器利用基于人工智能的多约束条件搜索技术来实现调度决策。PBS、LSF与Silver/Maui主要用于集群系统,要求对资源具有完全的控制。如果以GRAM作为底层协议,也可以将PBS、LSF部署在网格层次上。Silver利用Maui实现作业在多个集群间进行调度。
(4)服务维护
发布到网格平台中的服务并非一成不变,可能会发生服务信息更新以及服务注销等基本操作,因此服务维护也是服务管理的基本内容。服务的动态更新需要按照一定的规律定期更新,同时对服务信息的修改应有严格权限,原始注册馆或经过原始注册馆授权的用户才可以修改或删除信息。同时对已注册服务,如果资源拥有馆不想提供给用户使用或不想接受网格调度了,这时就需要注销该服务。
目前服务维护的主要方法有状态监测、基于服务生命周期的管理等。例如在Globus4的MDS中,用户可以向MDS查询资源的属性,这些资源属性代表了资源的配置和状态。管理员和服务提供者可以为永久资源和临时资源维护一些属性,MDS中的信息通过为资源数据关联一个超时时间来保证其反映最新情况,即服务生命周期的值。MDS Index Service中保存的所有服务都有一个相关的生命周期。如果在这个生命周期指定的时间内没有更新,数据就过期了。这种方法可以通过只在相关的资源属性进行更新时维护这些资源的配置和状态,从而对临时资源进行处理。当资源不再可用时,资源属性就不会更新了,这些信息就会超时并被删除。
参考文献
[1]张晓林.数字对象的唯一标识符技术[J].现代图书情报技术,2001(3):8-11.
[2]董慧,安璐.数字图书馆关键技术的分析与启示(上)[J].情报学报,2002,21(6):700-707.
[3]董慧,安璐.数字图书馆关键技术的分析与启示(下)[J].情报学报,2003,22(1):52-58.
[4]张晓林.数字化信息组织的结构与技术(一)[J].大学图书馆学报,2001(4):9-14.
[5]张晓林.数字化信息组织的结构与技术(二)[J].大学图书馆学报,2001(19):19-24.
[6]喻浩,潘薇.数字图书馆支撑技术及其发展[J].农业网络信息,2007(9):101-103.
[7]王建文.数字化图书与数字图书馆应用研究[M].北京:北京工业大学出版社,2005.
[8]毕强,牟冬梅,王丽伟.数字图书馆关键技术的比较研究[J].图书情报工作,2004,48(5):27-31.
[9]郭欣.数字图书馆及其关键技术[J].情报探索,2007(3):98-100.
[10]贾春华.数字图书馆相关支撑技术[J].情报科学,2004,22(11):1342-1345.
[11]赵悦.数字图书馆元数据应用研究[D].武汉:武汉大学信息管理学院,2005.
[12]贺亚锋.元数据的管理研究[J].图书馆杂志,2000,19(9),29-31.
[13]王大可.数字图书馆[M].深圳:海天出版社,2002.
[14]黄如花.数字图书馆原理与技术[M].武汉:武汉大学出版社,2005.
[15]李培.数字图书馆原理及应用[M].北京:高等教育出版社,2004.
[16]刘鹏.下一代互联网——从网络到网格[OL].[2008-4-2].http://www.read8.org/20071110/39139/.
[17]互联网的第三次浪潮:网格[OL].[2008-4-2].http://blog.csdn.net/leijungood/archive/2004/01/16/1975.aspx.
[18]网格是什么?[OL].[2008-4-2].http://www.km73.com/ article/html/2006-1-9/200619120344.htm.
[19]李秀东.浅谈西部民族地区数字图书馆的建设[J].青海师专学报(教育科学),2005(1):126-128.
[20]徐永川.SGML、HTML与XML的比较[J].情报科学,2004,22(1):100-103.
[21]向胜军,李超峰.OWL:一种用于语义网的描述逻辑[J].北京石油化工学院学报,2006,14(1):14-17.
[22]张剑,宋文.数字图书馆的知识组织系统[J].图书馆理论与实践,2005(5):11-13.
[23]沈嵘.主题网关理论及其在信息组织中的关键技术剖析[J].图书馆学研究,2007(6):34-38.
[24]季拥政.开放存取:一种获取信息资源的全新途径[J].攀登,2007(1):167-169.(www.xing528.com)
[25]雷燕,藏国全.基于网络的文献传递服务软件——Ariel和Prospero[J].津图学刊,2003(2):30-31.
[26]杨发毅.数字图书馆关键技术与实践[J].图书馆学刊,2006(3):128-130.
[27]Informedia II Digital Video Library:Auto Summarization and Visualization Across Multiple Video Documents and Libraries[OL].[2008-4-2].http://www.informedia.cs.cmu.edu/dli2/ index.html.
[28]互操作协议之二:ZING[OL].[2008-4-2].http://my.donews.com/keven/2006/04/06/z3950b/.
[29]齐华伟,王军.元数据收割协议OAI-PMH.情报科学[J],2005,23(3):414-419,425.
[30]语义Web和语义网格概述[OL].[2008-4-2].http://cisco.ccxx.net/cisco/2784.html.
[31]SGML/XML入门[OL].[2008-4-2].http://worldhello.net/ doc/docbook_howto/ar01s04s01.html.
[32]由认知到感知:谈信息可视化技术[OL].[2008-4-2].http://articles.e-works.net.cn/521/Article967.htm.
[33]IBM数字图书馆解决方案[OL].[2008-4-2].http://ntlib.ntu.edu.cn/8/2006/01/25/20060125-17948-1.html.
[34]Gallica Digital Library Charter[OL].[2008-4-2].http://www.BNF.fr/PAGES/version_anglaise/cooperation/po_charteGallica_gb.htm.
[35]IrcamMultimediaLibrary[OL].[2008-4-2].http://mediatheque.ircam.fr/index-e.html.
[36]http://www-db.ics.uci.edu/pages/research/mars/index.shtml 2007-11-30.
[37]The British Library[OL].[2008-4-2].http://www.bl.uk/.
[38]Gallica2[OL].[2008-4-2].http://Gallica2.BNF.fr/?&lang=EN
[39]BNF[OL].[2008-4-2].http://www.BNF.fr/pages/zNavigat/ frame/version_anglaise.htm.
[40]NDL[OL].[2008-4-2].http://www.ndl.go.jp/en/index.html 2008-4-2.
[41]TheELINORProject[OL].[2008-4-2].http://www.iielr.dmu.ac.uk/Projects/ELINOR/.
[42]汉王OCR技术及应用入选06年信息产业重大技术发明项目[OL].[2008-4-2].http://www.yywzw.com/luntan/ dispbbs.asp?boardID=13&ID=520&page=1.
[43]CalPhotos:About the Image Retrieval System[OL].[2008-4-2].http://Calphotos.berkeley.edu/retrieval.html.
[44]Bodley[OL].[2008-4-2].http://www.bodley.ox.ac.uk/toyota/ html/project.html.
[45]Gallica2[OL].[2008-4-3].http://Gallica2.BNF.fr/html/aide/ projet.html
[46]Gallica2.La bibliothèque numérique[OL].[2008-4-3].http://Gallica2.BNF.fr/html/aide/site.html.
[47]Gallica2.D'où proviennent les documents proposés dans Gallica 2[OL].[2008-4-2].http://Gallica2.BNF.fr/html/aide/ contenu.html.
[48]汉王OCR:OCR技术研究再获突破视频识别研发成功[OL].[2008-4-2].http://www.thethirdmedia.com/Article/200610/ show63024c35p1.html.
[49]Bodley Library[OL].[2008-4-2].http://www.bodley.ox.ac.uk.
[50]The IRCAM Multimedia Library:a Digital Music Library[OL].[2008-4-2].http://catalogue.ircam.fr/articles/textes/Fingerhut99a/.
[51]陈桂林,王永成.字串去重的快速算法研究[J].情报学报,2000,19(3):254-258.
[52]Information Technology Projects(Research and Development Project for Next Generation Digital Library Systems)[OL].[2008-4-2].http://gipserver.gip.jipdec.or.jp/english/project-e/project27-e.html.
[53]韩彬斌,王培康.Web网页识别算法研究[J].情报学报,2001,20(1):77-81.
[54]厦门在全球率先研发成功手机文字识别技术[OL].[2008-4-2].http://2006.chinataiwan.org/Web/Webportal/W4602056/ A124662.html.
[55]张君.网格:Internet信息技术的第三次浪潮[OL].[2007-12-24].http://www.51dh.net/magazine/html/175/175416.htm.
[56]徐志伟,冯百明,李伟编著.网格计算机技术[M].北京:电子工业出版社,2004:7-8
[57]Foster l,Kesselman C,Nick J,et al.The Physiology of the Grid. An Open Grid Services Architecture for Distributed Systems Integration[OL].[2007-06-22].http://www.globus.org/ research/papers/ogsa.pdf.
[58]邹德清,金海.网格服务体系结构的演变[OL].[2007-9-12].http://media.ccidnet.com/media/ccu/644/01901.htm.
[59]Czajkowski K,Ferguson D,Foster I,et al.The WS-Resource FrameworkVersion1.0[OL].[2007-9-12].http://www.chinagrid.net/dvnews/upload/2005_04/05040200347064.pdf.
[60]樊宁.网格体系结构概述[OL].[2007-10-14].http://blog.csdn.net/jefferylee/articles/1495222.aspx.
[61]杨光文.网格三层框架:数据、信息、知识[J].计算机教育,2004,7:27-28.
[62]韩毅,毕强,李贺.国外基于网格技术的数字图书馆内容与应用的比较研究[J].情报学报,2006,25(2):221-229.
[63]刘盛.基于网格的服务发现研究[D].天津师范大学,2006.
[64]罗泽.科学数据网格服务发现框架及其关键问题研究[D].中国科学院研究生院,2006.
[65]GT4 Monitoring and Discovery System:MDS4[OL].[2007-9-12]http://www.globus.org/alliance/events/sc06/MDS4.pdf.
[66]余丽琼,郭绍忠,黄永忠,等.condor系统分析[OL].[2007-12-25].http://www.ahcit.com/lanmuyd.asp?id=1016.
[67]谷青范.网格环境下的服务调度机制研究[D].东南大学,2006.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。