(一)Web技术
Web是计算机历史的巨大成功之一。Web及其相关技术是数字图书馆快速发展的关键。Web是分布于Internet上各个计算机中的信息相互链接而成的集合。这些计算机被称为Web服务器。
从技术上来看,Web基于四种简单的技术:超文本标记语言(HTML)、超文本传输协议(HTTP)、MIME数据类型和统一资源定位器(URL)。
随着Internet的不断普及,静态的信息提供方式越来越无法满足用户的需要。人们需要通过Web这一廉价、开放的平台让更多的用户可以访问存储在数据库中的动态数据。一旦完成这样的应用,用户可以更快、更经济地获取自己感兴趣的信息,服务提供者也可以借此获得更多的用户反馈信息。在这种需求的推动下,动态Web技术就应运而生了。
动态Web技术是指利用脚本代码、程序等实现能够与用户交互的动态HTML页面,是对静态Web平台的扩展。这种扩展可以分为Web服务器端扩展和浏览器端扩展两类。目前,动态Web技术已经成为Web发展的主流,当前常见的商业化动态Web构建平台分别为Microsoft的NET平台和SUN的J2EE平台。
主 流Web服 务 器 包 括IBM的WebSphere,Microsoft的IIS,BEA的Weblogic、Apache、Tomcat等。
(二)元数据收割技术
OAI—PMH(Open Archives Initiative Protocol for MetadataHarvesting)是为解决异构数据库之间跨库检索产生的一种元数据传输和收割标准框架协议。在OAI—PMH的互操作框架中包含数据提供者(Data Provider,DP)和服务提供者(Service Providers,SP)两种角色。
1.数据提供者(DP):主要负责元数据的发布,并将元数据存储在本地的一个或多个仓储(Repository)中,以方便服务提供者(SP)对这些元数据进行收割。
2.服务提供者(SP):主要负责元数据的收割,SP通过OAI协议向DP发出请求(Requests),并从DP的数据仓储中收割元数据用以支持对用户提供增值服务。一个SP可以收割多个DP的元数据。
OAI—PMH是基于HTTP协议的,如图7-8所示, SP通过OAI—PMH向DP发出收割元数据的HTTP请求, DP则根据HTTP请求的收割参数,提取相应的数据记录,并生成XML格式的文档,返回给SP。
图7-8 OAI—PMH工作原理
在OAI协议中,通过HTTP协议定义了六种命令动词(Verb),规定了DP和SP之间的最基本的操作语法,其内容如下:(www.xing528.com)
1.dentify:返回仓储系统配置的基本信息,包括URL、协议版本、最早日期标删除记录的管理方式、采集的时间粒度和管理员E-mail地址等。
2.List metadata formats:返回仓储中元数据的格式信息。
3.List sets:返回仓储中记录的数据集合结构,以便SP进行收割内容的选择。
4.List Identifiers:得到数据仓储中由元数据唯一标识符组成的记录集,包含From(开始)、Until(结束)、Set(集)、Resumption Token等参数。
5.List Records:从数据库中取得多条元数据记录,包括记录的唯一标符、元数据格式等。
6.Get Record:根据指定的记录条目号和元数据格式,从仓储中得到指定的资源元数据。
(三)知识地图
知识地图的实质就是一种知识导航系统,是指知识位置的向导,而不是知识的集合,该向导指向具体的人、文献或数据库,告诉用户谁拥有他们所需要的知识,以及哪些文件和数据库记录有他们所需要的知识,以方便用户快速准确地找到自己所需要知识的知识源。知识地图不仅可以帮助用户找到所需要的知识,还能以知识树或知识网的方式,揭示知识之间的联系。
知识地图的基本功能是揭示组织内的知识来源及知识的相互关系,并以可视化的形式表示出来。对于公司或企业来说,知识地图有助于新员工的培训,公司的员工通过知识地图,可以很清楚地明白自己的工作在企业中的地位,能较快地进入工作角色;同时,还有利于组织隐性知识的开发和知识的共享。
一个完整的知识地图,应包括知识节点、节点之间的相互关系及其可视化表示。知识地图的设计需要用到多种理论方法和技术,主要包括信息组织、词表索引、信息构建、知识管理、知识抽取、数据结构、数据仓储、数据挖掘、计算机多媒体、人机交互、社会网络分析、人工智能和语义网络等。
(四)网格技术
美国计算网格项目的领导人Ian Foster在其1999年出版的(The Grid:Blueprint for a New Computing Infrastructure)一书中对网格的描述是:“网格就是构筑在互联网上的一组新兴技术。它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通百姓提供更多的资源、功能和交互方式。”网格可划分为三个层次:数据/计算网格(Data/computation grid)、信息网格(Information grid)及知识网格(Knowledge grid)。其中,数据/计算网格主要解决数据访问的问题,关注数据和计算的共享及协作,其目标是将大量的计算机与其他设备、资源连接为一个虚拟计算机,形成一种方便的访问途径,其数据由无附加信息的比特和字节组成;信息网格主要是将“异构的信息访问”变成“同构的信息访问”,需要建立针对信息内容的统一表示、储存、访问、共享及保存,其数据具有某些信息成分;知识网格处理知识的获取、使用、抽取、发布和维护,其目标是获取数据、解决问题及做出抉择的知识信息。通过信息网格提供的格式化信息(譬如元数据),知识网格已经可以很方便并相对准确地获取广域网中各类信息。在此基础上,知识网格借助于这种海量的同构信息,实现知识的自动积累,进行“知识挖掘”。知识网格是前两种网格的集成与拓展,除了提供计算服务和信息服务外,它还使用数据挖掘、智能代理、分布式知识库等技术将数据和信息转换成知识,为全网格用户提供知识服务。
网格技术试图实现互联网上所有资源的全面联通,包括硬软件资源、计算资源、存储资源、通信资源、信息资源、知识资源、专家资源等,最终实现网络虚拟环境上的资源共享和协同工作,因此能支持数字图书馆的知识服务体系的构建。信息服务是元数据管理对外提供的基本服务,可实现新资源实体的注册和发布,并支持资源相关性的发布。在数据网格计算中,灵活的、可扩展的信息服务体系结构能够保证资源信息提供者的广泛分布性和信息服务的分布特性,避免由于单个信息服务实体的失败而导致其他资源信息服务不能正常提供。网格中的所有元数据构成元数据目录,这种目录结构系统具有层次和分布式的特性(如LDAP),并且不会破坏现有系统的元数据描述方法,能与它们很好地交互、融合。中国科学院提出了“服务网格(Service grid)”的概念,其织女星网格不仅支持科学计算,还支持其他服务如通信、数据、信息、计算、交易等。企业界类似研究包括内容分发(Content delivery)、服务分发(Service delivery)、电子服务(E-service)、实时企业计算(RTEC)、Peer-to-peer computing(P2P)、Web services等。这些研究在技术上的共同点就是将互联网上的资源整合成一台超级服务器,有效地提供内容服务、计算服务、存储服务、交易服务等。这些技术为数字图书馆服务体系的集成奠定了基础。[7]
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。