数字图书馆涉及的技术众多。首先,数字图书馆是一个以网络化方式互相连接的信息系统,因此它必然需要一切支持信息系统的技术,如网络技术、信息压缩与传送技术、分布式处理技术、安全保密技术等。其次,数字图书馆是一个具有图书馆功能的信息系统。从技术角度看,数字图书馆是将馆藏的多媒体资料以计算机所能存取的形式进行表示、存储、处理和传输。因此,此处所谈数字图书馆关键技术是指数字图书馆作为具有图书馆功能的信息系统所需要的技术[12]。
1.信息资源的数字化技术[13]
数字信息资源的创建与获取技术,包括文本和多媒体数据的数字化技术、数字信号处理技术、数字存储技术、数字通信技术等。其中,文本信息资源的数字化技术包括手工输入、扫描识别技术,多媒体信息资源的数字化技术包括数字压缩技术、多媒体同步技术、多媒体数据库技术,获取技术则主要是对现有信息资源库的整合技术。在所有这些数字技术中间,扫描识别技术、多媒体技术、数字压缩技术对数字图书馆发展产生了比较大的影响。
扫描识别技术是一种能够将文字自动识别并录入到电脑中的软件技术,需要的图像输入设备主要是扫描仪。具体而言,即将印刷型稿件扫描成图像输入计算机,然后通过光学识别软件(optical character recognition,OCR)识别出其中的信息,是自动识别技术领域的重要研究和应用内容。目前识别率较好、市场占有率较大的为清华紫光OCR,近两年,随着扫描仪逐渐普及和OCR技术的日臻完善,OCR已成为信息资源数字化的重要技术手段。
多媒体技术就是利用计算机技术把文字、图形、影像、动画、声音及视频等多媒体信息综合一体化,使其相互之间建立起逻辑连接关系,并能对它们进行采集、获取、编辑、加工处理、压缩存储和演示,使计算机具有交互展示不同媒体形态的能力。其核心技术是数字压缩技术、多媒体同步技术和多媒体数据库技术。其中,数字压缩技术的核心是信息压缩编码。由于多媒体信息载体采用大量的图片、声音、视频等多种媒体,这些模拟数据转换成数字编码后,其数据量比传统以文字为主的单一媒体要大数百倍,在网络环境下直接影响传输,因此数字压缩技术成为多媒体发展的一项关键技术。国际标准化组织和国际电报咨询委员会分别制定了JPEG和MPEG两个标准,其中,JPEG是静态图像压缩标准,MPEG是动态图像压缩标准。多媒体同步技术就是向用户展示多媒体信息时,保持媒体对象之间固有的时空关系。尤其是在采用客户机/服务器模式的系统中,各种媒体分布在不同的空间和时间里,比如文本放在文本数据库中,图像放在图像库中,那么如何将不同数据库中的数据按事件顺序和空间缓冲区地址的安排,恰当地组合起来就是多媒体同步技术需要解决的问题。多媒体数据库技术则是实现多媒体信息资源的存储管理,目前主要的实现技术包括扩充关系数据库技术、面向对象数据库技术和超媒体数据库技术三种。
数字信号处理技术(Digital Signal Processing,DSP)是数字技术的核心,是将信号以数字方式表示并处理的理论和技术,首先通过对现实世界的连续模拟信号进行测量或滤波以便将模拟信号数字化,然后进行相应处理,最后再将数字信号输出为模拟信号,具体通过数模转换器来实现。目前,该技术已经广泛应用于数字化音频/视频处理、通信、工业控制等众多领域[13]。
2.数字信息资源的组织存储与管理技术
随着互联网的发展,数字信息资源迅速增长并逐步呈现海量、异构、分布的特点,这给数字信息资源的组织、存储和管理带来了巨大挑战,传统的信息资源组织模式显得力不从心,不仅需要在数字加工和标引方面费时费力,而且无法有效揭示数字信息资源的特征以及相互之间的关系,因此,数字图书馆需要新型的数字信息资源描述、组织和管理技术。目前,数字信息资源组织与管理方面主要是元数据技术、知识组织系统技术、主题网关技术、信息链接与重组技术等。此外,多媒体信息组织技术应该引起足够的重视,国内在这方面的研究明显不及对文本信息组织技术的研究。
元数据作为一个统一概念提出是起因于对网络信息资源管理的需要,互联网信息的爆炸式增长,使人们难以快速准确地找到自己所需要的信息。因此,计算机科学界研究人员试图模仿图书馆对图书进行管理的方式,对网页资源进行编目,提出了元数据技术。近年来,随着元数据研究与应用的不断深入,目前已经有多种元数据格式。比如,图书资料元数据Dublin Core和MARC、档案资料元数据EAD和EAC、电子政务元数据GILS、学习对象元数据IEE LOM等,分别用于各类资源的描述、定位、检索、评价和选择等方面。在数字图书馆方面,Dublin Core和MARC标准得到了广泛应用[14]。
知识组织系统(Knowledge Organization System,KOS)技术是对各种人类知识结构进行表达和有组织地阐述的语义工具的统称,在用户的信息需求和信息资源之间起着桥梁的作用。利用知识组织系统,用户可以找到自己感兴趣的信息而不必事先知道它的存储位置。具体而言,知识组织系统主要包含词汇列表、分类列表和关系列表三种。其中,词汇列表包括术语表、字典、地名辞典等,分类列表包括主题词表、分类表、学科分类表等,关系列表包括叙词表、语义网络(semantic networks)、知识本体(ontology)等[15]。
主题网关技术是支持系统化资源发现的互联网服务,通过互联网提供对资源(文献、对象、网站或服务)的链接。具体而言,主题网关是一种网络资源发现服务,提供特定的主题,并依照一定标准选择有互联网资源描述的数据库,该服务建立在资源描述的基础上,可以通过主题结构浏览访问资源。由于是互联网服务,其对象是分布式Internet信息资源,一般而言,主题网关具备这样的特征:建立在资源描述基础上的服务;高水平的人工创建或干涉,一般由信息专家和主题专家来创建;有检索和浏览功能;有选择标准和质量标准支持的资源发展政策;有维护和更新程序支持的资源管理政策[16]。
信息链接与动态重组技术是指在已建立的信息资源体系基础上,将有关信息内容链接起来形成新的信息链或信息集合,从而实现信息的重组。这种链接重组主要不依靠作者事先建立的链接,而是专门建立相应的链接机制,有意识地根据用户特定需要和信息内容的内在关系来进行面向用户的信息组织,可以看成是用户界面层的信息组织机制和技术,具体包括知识性链接、参考文献链接、引用网络链接、语义链接技术等[17]。
3.数字信息资源的检索与访问技术
信息检索技术是从按照一定方式组织的信息存储中将满足用户需求的信息提取出来提供给用户的技术。目前,主要包括文本信息检索技术、全文检索技术、多媒体信息检索技术、检索引擎技术。在数字资源访问技术方面,主要是元数据库信息资源访问技术和数字信息资源开放存取(Open Access,OA)技术。前者主要是实现分布式网络环境下元数据的管理,比如OAI技术、ZING技术等,后者则主要是推动科研成果利用互联网自由传播,其初衷是解决当前的“学术期刊出版危机”,推动科学信息的广泛传播,提升科学研究的公共利用程度,具体包括两层含义:一是学术信息免费向公众开放,它打破了价格障碍;二是学术信息的可获得性,它打破了使用权限障碍[18]。(www.xing528.com)
4.数字信息资源的传递技术[13]
数字信息资源的传递技术是数字资源共享体系的重要组成部分,具体包括电子邮件传输、FTP传输、共享网络空间传输、专业数字文献传递服务软件等。比如,网络共享硬盘就是一种共享空间传输。美国研究图书馆组织开发的Ariel软件就是一种专业数字文献传递软件[19]。
5.数字信息资源的信息安全与权限管理技术
通过网络访问和管理数字信息,需要设定有效的权限;保护使用者的权益,还必须保护信息版权所有者的权益。所以,数字图书馆的信息安全和权限管理必须均衡系统的安全性能和个人收益,从而更好地促进信息资源的共享和传播[20]。在数字图书馆中一般采用版权保护、数字水印、密钥系统、防火墙、数字签名、数字证书、数字时间戳等技术[21]。其中,数字水印技术是利用数字内嵌的方法将相关标记隐藏在数字图像、声音、文档、图书、视频等数字产品中,用以证明原创作者对其作品的所有权,并作为鉴定、起诉非法侵权的证据,同时通过对水印的探测和分析保证数字信息的完整可靠性,从而成为知识产权保护和数字多媒体防伪的有效手段[22]。
6.数字信息资源的发布与服务技术
提高信息服务质量和资源利用率是数字图书馆的重要职责,除了传统的信息检索技术以外,涉及的主要技术包括信息定制技术、信息发布技术、信息可视化技术、信息挖掘技术等[1]。
信息定制技术是采用软件技术按照用户的特定信息需求为其制作出个性化的使用界面,动态即时地为用户搜集和组织数字化信息资源并自动发送给用户,一方面可以充分满足用户的个性化需求,同时数字图书馆可以即时了解用户的动态知识需求,研究用户的知识需求规律,提高信息服务的针对性和实效性。
信息发布技术是指用户从网上获取信息的方式为“页面浏览—信息阅读—下载”的方式,具体分为被动方式和主动方式两种:前者是服务器将更新的信息在页面上进行公布,用户在浏览页面时将感兴趣的信息从服务器“拖”到本地;后者是指服务器可将及时更新的信息主动、及时地发送到客户端桌面的技术。比如,信息推送技术,它是用户在浏览器发出请求后,Web服务器根据事先规定的设置文件,有目的地按时将用户感兴趣的信息主动发送给用户[23]。
信息可视化技术是近年来国际上提出的一项新课题,专指非空间数据的可视化,它不仅用图像来显示多维的非空间数据,加深用户对数据含义的理解,而且用形象直观的图像来指引检索过程,加快检索速度,在信息可视化中,显示的对象主要是多维的标量数据。目前的研究重点在于设计和选择什么样的显示方式,才能便于用户了解庞大的多维数据和它们相互之间的关系[24]。
7.分布式资源与运行管理技术
数字图书馆面临着复杂的管理信息系统、数字信息资源、用户使用环境和分布式的网络管理系统,因此,如何将所有这些资源有效地整合在一起就成为数字图书馆能否成功运行的关键,其中涉及的技术主要包括数字图书馆集成技术、分布式环境下面向对象资源调度和管理技术(主要是网格技术)、语义网(Semantic Web)技术等。
数字图书馆集成技术主要包括系统集成和内容集成技术。所谓数字图书馆系统集成是指根据应用的需求,将硬件平台、网络设备、系统软件、工具软件及相应的应用软件等集成为具有优良性能价格比的计算机系统的全过程,其实质是让不同的产品、设备、网络、系统互连,包括图书馆内部的业务自动化系统和外部的馆与馆之间、图书馆与用户之间的网络系统互连,而系统协调与优化是系统集成的技术难点。内容集成主要包括信息源集成、业务过程集成和服务集成。信息源集成主要指数字化、网络化正式与非正式出版的科技信息源,以及各类载体的开放获取信息源。业务过程集成包括业务管理、进程模拟,以及综合任务、流程、组织和进出信息的工作流,还包括业务处理中每一步都需要的工具。服务集成主要应采用国际通信标准协议,如SOAP标准协议等实现。集成的方式包括点对点集成(主要是应用程序之间通过应用程序接口(API)进行点对点的数据和信息交换),结构集成(采用中间件工具来统一实现和控制数据的传输和交换),流程集成(主要是业务流程得到集成,提高业务工作效率),外部集成(即与合作伙伴进行外部集成,帮助用户建立业务处理过程,达到系统间高效通信与交流的目的)[1,21]。
网格(grid)技术是国家级高性能计算和信息服务的战略性基础设施。它的目标是将地理上分布、异构的各种高性能计算机数据服务器、大型检索存储系统和可视化、虚拟现实系统等通过高速互联网络连接并集成起来,共同完成一些缺乏有效研究办法的重大应用研究问题。它不仅实现了对各种计算资源的访问,而且实现了对所有数据资源的统一访问、高效调度。在网格中,一切对外功能都以网格服务(grid service)来发布,并借助一些现成的、与平台无关的技术,如XML,WSRF,SOAP,WSDL,UDDI等来实现这些服务的描述、查找、访问和信息传输等功能。这样,一切平台及所使用技术的异构性都被屏蔽掉,在这方面,值得关注的是信息网格技术[25]。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。