6.1.1 背景
数字图书馆是传统的图书馆在信息时代的发展,是随着计算机技术、现代通信技术、高密度存储技术的迅速发展而产生的,是社会的重要信息基础设施。20世纪90年代以来,数字图书馆理论与技术已经成为图书馆学界一个国际性热点论题。随着研究的深入,数字图书馆的一些相关问题也日益尖锐起来。
首先是异构系统之间的互操作问题。随着越来越多的组织机构加入到数字图书馆系统的建设中来,逐渐产生了两个方面的趋势,一方面是不同组织机构建设的数字图书馆系统侧重于不同的、各具特色的信息内容;另一方面,由于不同组织机构进行数字图书馆系统建设的目的、方式、运行手段各不相同,从而在技术上采用的平台、协议、体系结构也各不相同。未来的数字图书馆不可避免地具有分布式、异构性的特点,迫切需要解决异构系统之间的互操作问题。
第二,目前的数字图书馆在信息表达和检索方面存在缺陷,主要在于其设计目的是面向用户的直接阅读和处理,而没有提供计算机可读的语义信息,因此限制了计算机在信息检索中的自动分析处理以及进一步的智能化处理的能力[1],人们必须力求使计算机之间能够从语义层次上互相理解和沟通。
第三,目前的数字图书馆多以传统的关键词检索为主。这种检索方式曾经在一定程度上满足过用户的需求,由于字义本身与其概念的延伸不在同一级上,这使得寻找的结果可能仅仅是与字面意义或某层意义相匹配,但人们想要的往往是这个信息的概念及其相关的成分,而不仅仅是字面所表达的意思。
为了解决上述问题,我们将本体技术引入到数字图书馆。这里所谈到的本体,原本是哲学上的一个概念,被哲学家用来描述物质的基础。后来知识工程学者借用了这一概念,在开发知识系统时用于领域知识的获取。近年来,信息系统研究者们又用本体的概念模拟信息系统建模,开始了诸多新的研究。本体对于促进信息系统的发展具有非常重要的作用。Uschold等人认为本体在通信(Communication)、互操作(Inter-Operability)和系统工程(Systems Engineering)三个方面具有非常重要的作用[2]:
(1)通信,主要为人与人之间或组织与组织之间的通信提供共同的词汇。
(2)互操作,在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统之间的互操作和集成。(www.xing528.com)
(3)系统工程,本体分析能够为系统工程提供以下优势:
●重用(Re-Usability),本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件(component)。
●知识获取(Knowledge Acquisition),构造基于知识的系统时,用已有的本体作为起点和基础来指导知识的获取,提高其速度和可靠性。
●可靠性(Reliability),形式化的表达使得自动的一致性检查成为可能,从而提高了软件的可靠性。
●规范描述(Specification),本体分析有助于确定IT系统(如知识库)的需求和规范。
各国计算机相关领域研究者开始把本体技术应用到数字图书馆的相关信息系统开发中,所开发的系统包括SCORE、OEDSew、Time2Search、RDF GateWay、OBSERVER PICSEL、OntoBroker、KAONPORTAL、Sydom、OntoSeek等。其中SCORE(Semantic Content Organization and Retrieval Engine)[3],由Georgoa大学Amit Sheth等人开发,该系统在元数据的语义组织和利用、语义信息规范化、语义检索和语义关联等方面进行了探索,可以分为本体构建、内容处理、语义信息检索三个模块;OEDSew系统[4]是esperonto项目的一个子课题,它由Gomez Perez等人设计完成,系统的浏览内容通过存储在WebODE平台中的本体自动生成,本体可以被检索和导航,概念和关系实例可以被浏览、检索和更新,本体更新将自动导致内容的更新; Time2Search则是帮助投资者进行潜在投资调查,并能分析和产生报表,以供特定环境下的投资者参考;RDF GateWay[5]是由Intellidimension开发的语义网关,该系统由服务器端的脚本语言RDFQL、RDFQL处理器和一个演绎数据库来处理复杂的用户查询,通过RDF Server Page技术来处理HTML,XML,RDF和演绎数据库之间的数据转换;OBSERVER[6]则由Mena等人开发,该系统针对不同的信息源用不同的本体来表示,并且在这些本体之间建立了映射,当用户利用该系统进行查询时,只返回一个本体,用户可以选择其他的本体来扩展检索,由于一个本体的概念与另一个本体之间的概念之间的映射并不完全准确,系统给出了信息丢失的评估; PICESL(Production d Interfacesbase de Connaissances pour des Services En Ligne)[7]是由法国LRI公司开发的一个基于语义的分布式异构资源处理系统,该系统由一个相同应用领域的几个独立存在的信息资源以统一的方式提供给用户,它允许用户提出领域层次的查询,在异构信息资源中进行搜索并将结果提供给用户;OntoBroker[8]是由德国Ontoprise公司开发的语义信息处理系统,它对信息的集成主要通过连接器、输入和输出模块构成,能够把现有数据库的数据模式映射到本体上,这种映射最终被转换为F逻辑(一种基于框架的逻辑语言)格式的statement存储;KAON PORTAL[9]则提供多语言本体的可视化导航,异构资源下的本体集成,本体查询,本体映射等; Sydom[10]是一个基于语义手工索引的多语言信息检索系统,该系统将语义信息分为两类进行存储,一类是领域知识(包括概念和之间的关系),另一类是专有名词(依照不同语言分开);OntoSeek[11]是一个用于黄页和产品目录检索的语义信息系统,该系统利用sensus来匹配用户查询和实际数据,查询过程中用户可以动态调整自己的检索策略。
综上所述,不难发现,本体在数字图书馆中的应用已经逐渐成为国外研究的热点。本章以我国国共两党关系历史数字图书馆(GGHZ—Distal Library,下文简称为GGHZ—DL)为背景,描述了研制GGHZ—DL模型所需技术和开发环境,以期为同领域研究者提供实践与借鉴。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。