(一)数字图书馆的含义
以互联网为代表的信息技术革命已经造成图书馆面貌的改变,传统图书馆在21世纪的命运成为图书馆学界关注的重要课题之一。人们现在达成了共识:传统形态的图书馆将在一定时期内与现代形态的图书馆并存,共同承担传递文献信息的职能。但不能回避的是:传统图书馆在信息交流中的地位将进一步被削弱,某种新形态的图书馆将取代传统图书馆成为21世纪图书馆的主体形态。学者们设想的新型图书馆就是现代的数字图书馆。
数字图书馆是由英文Digital Library翻译而来的词汇,其中Digital是数字式或数字化的,是用计算机可识别的代码记录信息的方式。关于数字图书馆的定义,目前尚无统一的定论,众多学者从不同角度对其进行了描述。
数字图书馆可以定义为电子图书馆,它使人数众多而又处在不同地理位置的用户能够方便地利用大量的、分散在不同贮存处的电子物品(objects)的全部内容。这些电子物品包括网络化的文本、图形、地图、声频、视频、商品目录以及科学、企业和政府的数据集;此外还包括超文本(hypertext)、超媒体(hypermedia)和多媒体等组成部分。
数字图书馆是一种有纸基(paper-based)图书馆外观和感觉的图书馆,但在这里图书馆资料已经被数字化并存储起来,而且能够在网络化的环境中被本地和远程用户存取,还能通过复杂和一体化的自动控制系统为用户提供先进的、自动化的电子服务。
电子(或数字)图书馆是建立在图书馆内部业务高度自动化的基础之上,不仅能使本地和远程的用户利用OPAC以查询传统图书馆馆藏(包括非数字化和数字化),而且也能使用户通过网络联机存取图书馆内外的其他信息资源的现代化图书馆。
数字图书馆就是运用信息技术使传统的图书馆资源和服务手段数字化,使读者能够以更为方便快捷的方式在更广阔的领域获取文献信息资源。几乎图书馆的所有载体信息均能以数字化的形式获取。
数字图书馆是一种多媒体制作的分布式信息系统。它把各种不同载体、不同地理位置的信息资源用数字技术存储,以网络查询传播的一个大型信息系统。
可以看出,这些定义虽然提出的角度各不相同,但它们之间也存在着相同之处。如均认为数字图书馆是存储和提供数字信息的系统或信息空间,并认为这些系统是网络化或开放性的。不同之处主要是提出的角度不同,如有从个体的、相对独立的图书馆实体的角度出发提出数字图书馆的定义,有从广义角度出发提出定义的。
我们认为,数字图书馆必须具备的三个条件,现在已经得到了大家的认同。第一,网络化存取。数字图书馆依赖于网络而存在,其对内的业务组织和对外的服务都是以网络为工具和载体的。第二,数字化资源。数字图书馆可以说是海量数据的存储管理区,大量的数字化资源是数字图书馆的物质基础。第三,分布式管理。数字图书馆通过宽带互联的计算机网络,把分布在不同国家、不同区域的孤立的信息资源单位变成联合体。全球数字图书馆如果能遵循统一的访问协议,就可以实现真正意义的资源共享。根据以上几点总结,我们认为,数字图书馆就是运用现代信息技术(主要是计算机网络技术),对数字信息资源进行采集、加工、整理和贮存,采用分布式的管理模式,向所有接入区域网络的用户提供信息服务的社会文化机构。
在这个定义中,我们明确了与传统图书馆的区别——运用现代信息技术;明确了数字图书馆的社会性质——是社会文化机构;明确了数字图书馆的功能——为用户提供信息服务;明确了数字图书馆的工作对象——数字信息资源;明确了数字图书馆的工作内容——采集、加工、整理、贮存和提供信息资源;管理的方式——分布式管理,明确了服务对象——接入区域网络的用户。
从技术角度上讲,数字图书馆是一个支持普遍存取、分布式管理,提供集成服务的图书馆。到目前,数字图书馆核心技术经历三次大的进步,第一次是计算机文字处理和桌面排版软件的出现,使小批量的信息数字化成为现实;第二次是扫描技术和光存储介质的出现,使大批量印刷文献被计算机处理;第三次是信息数字化技术的出现和应用。从应用角度讲,数字图书馆是一个基于数据库的应用平台、信息资源电子商务交易平台和数字化加工平台的综合性图书馆。从资源角度讲,其包括的内容就更广泛了。因此,数字图书馆的发展可笼统划分为三个阶段:第一代以资源数字化为特征,主要支持用户通过网络远程存取数字化信息;第二代以分布式信息管理与集成信息检索为特征,强调开放式的信息描述与组织,主要支持用户跨类型、跨载体、跨时空地发现和获取信息,可称为“基于资源的数字图书馆”;第三代以知识管理为特征,主要支持用户的数据挖掘与知识发现,强调基于数字知识网络的学习与交流,可称为“基于知识网络的数字图书馆”。
从广义的角度来说,数字图书馆与传统图书馆一样,都是为社会政治、经济、文化服务的机构,不同的主要是信息的存储方式和提供服务的方式由于现代信息技术的发展而发生了改变。其实,数字图书馆与传统图书馆之间的关系,不是替代的关系,而是互相依赖、互相促进的关系:数字图书馆是建立在传统图书馆基础之上的;同时,网络化的数字图书馆也为传统图书馆提供了进一步发展的机遇。近期,图书馆的形态是建立在数字图书馆基础上的复合图书馆(Hybrid Library)。复合图书馆是数字图书馆和传统图书馆有机结合的统一体,它不是简单地把传统文献数字化,也不仅仅是将网上资源提供给用户使用,而是需要对电子的或纸质的信息资源进行高度的整合。
(二)数字图书馆发展现状
1.图书馆借阅流通管理基本实现了计算机化
传统图书馆一般使用卡片等方式来对图书进行管理,对图书的总体情况不能及时了解,查询时也在翻阅大量的记录。目前图书馆引入了计算机,基本上实现了管理的计算机化。在流通部,通过条码识别书目信息,通够快速地将借还情况输入到电脑,大大节省了图书馆工作人员的工作量,也方便了读者对图书的借阅。
2.网络检索在图书馆中的应用
随着计算机检索的发展,读者可以从多个方面对文献信息进行检索,了解借还情况,还可以有针对性地找到想要的文献,也增进了读者对图书馆资源的了解。
3.图书馆电子资源的发展
图书馆的电子资源也是图书馆文献信息的重要组成部分。目前图书馆正在逐渐增加电子资源,但是电子资源的利用还不够广泛,没有引起读者的重视。
4.图书馆的数字化建设还在初步阶段
图书馆属于非营利性机构,数字化图书馆的建设需要大量的资金投入。在经济发达的地区,比较重视图书馆的现代化,数字图书馆的发展较快,但是在大部分地区,图书馆只是初步实现了管理的计算机化,并未在各个方面实现数字化。数字图书馆还需要更多的技术和资金支持。
(三)数字图书馆存在的主要问题
1.资源浪费问题
从数字图书馆概念的提出到现在许多高校图书馆纷纷投身于数字图书馆的建设行列,只有短短几年时间,由于缺乏统一的规划与协调,数字图书馆标准不一,相关立法尚未制定和执行,各单位之间的利益又难以找到彼此都认同的平衡点,同时,有的单位抱着“急功近利”的思想而片面地追求数字化资源的量,有的单位则是忽视自身馆藏的特点和学校教学的实际情况,这就造成中国不少高校在盲目地建设数字图书馆,合作建设少、各自为政多的现象屡见不鲜,各数字图书馆的用户检索界面、检索语言和管理系统等存在较大差异,不同馆的数据库各不兼容,各系统之间难以相互联通、应用,大量的财力、人力、物力资源浪费在低水平的重复建设上。
2.信息版权问题
计算机技术、自动化技术和网络技术的高速发展,使文献资源的格式转换、数字化作品复制、下载、盗版等变得更加容易,数字化作品的知识产权保护问题比传统纸质文献也更为复杂和突出。根据著作权法,下载作品必须取得作品权利人同意,但是资源库容量庞大的数字图书馆要取得每一位作品权利人的授权在现实中非常困难,在数字图书馆的有关立法中再不能套用那些陈旧的、与自身建设和发展特点不符的法规。
3.建设资金问题
数字图书馆建设是一个庞大、系统、长期的工程,硬件设备和软件资源的购置、网络布线工程、人员培训、数字化资源的更新、馆藏文献的数字化转换等,都需要充足的经费作后盾,但经费不足偏偏又是困扰高校图书馆发展的老大难问题。重点大学及进入“211工程”的大学数字图书馆建设与开发有专项拨款,而普通高校图书馆经费来源单一,主要依靠学校拨款,近年来图书、刊物价格大幅度暴涨,以致许多馆连每年的纸质文献购置、业务培训、科研、奖励等各项基本经费都难以维持,开展数字图书馆建设更是举步维艰。
(四)数字图书馆信息资源
信息资源是可供人们直接间接开发和利用的各种信息集合的总称,其基本组成部分为信息中的载体信息和主体信息。在数字化、网络化的信息环境的冲击下,图书馆信息资源已突破了传统的资源范畴,扩展、延伸为一个内容、形式更为多样的新型图书馆信息资源体系。图书馆中的数字资源,即电子资源,是指流的,能被人们直接或间接开发和利用的各种信息的集合。
1.数字图书馆信息资源的类型
网络环境下,数字图书馆的信息资源,不仅包括历史资料在内的所有资料数字化形成的资源;还有整理的其他资料,包括在线网上资料、广播及媒体资料、数字资源等。数字图书馆信息资源分为数字化的文献资源和网络信息资源两大类。
(1)数字化的文献资源
采用数字化技术将图文献资源包括以文字、图形、符号、音频、视频等方式记录的信息资源。根据其性质,可分为一次文献、二次文献、三次文献等。根据信息资源的属性又可分为图书、连续出版物、特种文献以及其他文献四大类。
(2)网络信息资源
网络信息资源是数字化时代的新特征,是数字图书馆信息资源中不可或缺的重要组成部分。网络信息资源形式多样,常用的有网络数据库、ONC、网络出版物、动态信息等。根据网络信息资源的发布时间和效用,可分为网上出版物、动态信息、联机数据库等。
2.数字图书馆信息资源的特征
(1)信息资源虚拟化
在网络环境下,传统的以实物为载体的信息传播方式发生变化,转化为数字形式,通过网络在全球范围内传播。
(2)信息资源多样化
数字图书馆采用数字化和网络技术,能够获取馆外乃至国外因书馆等信息资源,信息资源得到极大地丰富,形式也多样化发展。
(3)信息资源存储专业化
采用数字化技术处理信息资源,建立统一的信息存储格式,统一的元数据格式,统一的标准,使存储专业化。
(4)信息资源管理分布化
传统图书馆信息资源仅分布在实体馆内,而数字图书馆信息资源呈分布式存储。
(5)信息资源网络化
信息资源以数字化的形式存储在计算机中,用户查找不受时间、地域限制,能实现这个目标的只有网络。
(6)信息资源服务知识化(www.xing528.com)
数字图书馆不仅能提供用户所需的文献资源,更能从深层次对信息进行挖掘,发现信息的潜藏价值,从而提高信息的使用价值。
3.数字图书馆信息检索
(1)教字图书馆信息检索分析
信息检索的出现,源于莫尔斯在1950年发表的《把信息检索看作是时间性的通讯》一文,文中首次提出了信息检索这个概念,认为“信息检索是一种时间性的通讯形式”旧。而1954年美国海军兵器中心图书馆利用圆M70E机开发计算机信息检索系统,标志着信息检索阶段的开始。信息检索,广义上是指将信息按一定的方式组织和存储起来,并根据用户的特定需要找出所需信息的过程,即“信息存储与检索”。狭义上,仅指信息检索本身,即信息的查找过程。
图书馆作为最早采用检索系统的公共机构之一,最初采用的系统是由学术机构创建,后来由软件开发商创建。第一代产品中,系统基本上是实现老式技术的自动化,支持基于作者名和题名的检索;第二代产品中,增加的检索功能主要表现在支持主题检索、关键词检索和一些更为复杂的查询机制;第三代产品,目前正在开发过程中,重点是改进图形界面、电子表格、超文本届性和开放系统构建。数字图书馆信息资源检索在传统图书馆基础上发展,又有所不同。
(2)数字图书馆信息检索相关技术与标准
信息检索是指信息的存储与检索,需要相关的技术来实现,相关的标准来规范。对信息资源进行规范的组织,运用技术对检索需求进行分析处理,都能够有效地提高信息检索的效率。
①元数据是关于数据的数据,即关于数据的结构化的数据相关服务。一个元数据构成一个信息资源的基本数据,成为检索系统的基本构成单元。传统的书目数据与数字资源的描述数据本质上没有不同,因此,元数据适用于各种类型的信息资源的描述数据。数字图书馆的元数据主要有以详细记录为目的的元数据——MARC(机读目录)和以发现为目的的元数据——DC(都柏林核心元数据集)。
MARC是指以代码形式和特定结构记录在计算机存储载体上,能够被计算机识别并编辑输出书目信息的目录形式,MARC等编目体系是一些元数据描述的起点M。MARC格式规定书目在数据机读介质的表示和标识方法,有机读目录的构成、各数据字段在机读介质上的总体安排与内容结构。
由于网络搜索引擎在HTML环境下只注重页面表示形式,不注重内容,显示能力和结构性描述差,无法深入语义内容,1995年3月在都桕林召开的第一届元数据研讨会上,由OCLC与NCSA(国家超级计算机应用中心)发起,52位来自图书馆界和计算机网络界的专家共同研究,制定了对图书馆情报学界应用最广、影响最大的元数据项目——DC。目的在于建立一套描述网络电子文献的方法,实现网上信息的辨识、查询和检索。DC包括15个可以用来描述任何数字化对象的核心元素:7个描述内容,即标题、主题、描述、来源、语言、相互关系和覆盖范围;关于知识产权处理的4个元素:创作者、出版者、分销者和版权;为处理数字化对象的摘要,还有4个其他类型的元素:数据、类型、格式和标识。DC解决了搜索引擎结构过于简单而MARC格式又过于复杂等问题,不需要进行专业化训练就能对网络信息资源进行恰当的著录,降低了编目的成本,提高了效率。但是,如果信息没有语义关系描述的基础,无法进行逻辑的推理,就依然不能被机器理解。同一词汇的语义过载或同义词汇的不完全描述都导致了检索效率的不尽如人意。
②Z39.50协议是信息检索应用服务定义和协议规范的简称。它是一种网络协议,由一套用来控制和管理计算机之间通信过程中涉及的格式和进程的规则组成。它是一种开放网络平台上的应用层协议,使计算机使用一种标准进行通讯,支持不同数据结构、内容、格式的系统间的数据传输,从而实现异构平台和异构系统之间的互联、查询。
信息检索服务描述的是客户端和服务端的交互活动,服务端与一个或多个数据库相连接。当检索方法、命令方式互不相同的双方不能检索对方数据库时,利用Z39.50将需要转换的系统抽象模型映射成自己专用的模型,或反过来转换。具体来讲,就是客户端向服务端提出服务请求,将检索命令转换成符合Z39.50标准的格式,把信息编成Z39.50的应用协议数据单元,简称APDU,发送到服务端。服务端对APDU解码,转换成自身系统的检索命令,检索后将结果以上述过程的逆过程发回客户端,实现异构系统之间的互联和访问。
③叙词表,即主题词表,来源于希腊语和拉丁语,指词库。词库,包含了预编辑的在给定知识领域中的重要词汇和词汇中由同义关系派生出来的相关词汇集。叙词表以及某些规范化了的词汇表和结构,通常要比简单的词和同义词表复杂。学者Foskett认为,叙词表的基本目标是:为标引和检索提供标准化的词汇表或参照系统;帮助用户确定哪些语词适合查询表达式;根据用户需要,提供当前查询上位类和下位类的分类层次。叙词表的主要组成部分是标引词、词语之间的关联关系和编排形式。
④XML是可扩展的量标语言简称。它是W3C(万维网联盟)组织定义的一种互联网上交换数据的标准。在SGML(标准通用标记语言)基础上去掉语法定义部分,适当简化DTD部分,增加部分互联网的特殊成分,可认为是SGML的子集。XML同HTML(超文本标记语言)一样是一种元语言,能够以与SGML相同的方式包含标记语言。XML的语义标记既能够让人读懂,又能够让机器识别。在互联网上,服务器与服务器之间、服务器与浏览器之间的大量的交换数据,都要求对数据的内容和表现方式加以说明,XML正是具备了这样的功能。XML允许用户定义新的标签和更复杂的结构,指明可分析的层次对象模型,以及可扩展性、对文档元素标识性、拥有特定语法格式、促进文档结构化等特点,使其在信息检索中的地位越来越重要。
(五)数字图书馆的模式
1.按资源提供模式分
全球范围内已有许多国家和地区积极利用最新信息技术创建数字图书馆系统及数字图书馆资源库,一批雏形成果已在Internet上出现,主要有以下三种类型。
(1)特种馆藏型模式
将自己图书馆的珍藏(包括善本、古籍和珍藏)或特种馆藏(包括图片、声音、音乐、影视等各种载体)的资料进行数字化,提供网上共享。例如从美国国会图书馆的“美利坚记忆”为代表的一些国家、地方图书馆等。
(2)服务主导型模式
这种服务模式的资源一般由三部分组成:图书馆本身的数字化特种馆藏;商用的网上联机电子出版物或数据库(包括在本馆的资源镜像库);在因特网上有用的文献信息资源。同时建立统一信息访问平台与网上虚拟参考咨询平台向读者提供服务。例如目前国外有些大学的数字图书馆模式,又如美国加利福尼亚州的数字图书馆(CDL)、伊利诺伊州的数字学术图书馆(I-DAL)等。
(3)商用文献型模式
一些文献服务公司、出版社、代理商等建立一种供商用文献型的数字图书馆,提供全文的期刊、杂志、电子图书(也包括音乐和影视资料)等,一般既有索引数据库、又有全文的对象数据库。
近几年,许多数字图书馆的关键技术不断得到解决,如分布异构海量信息环境下,面向数字图书馆系统的体系结构和互操作问题;各种载体数字化获取和表现技术(包括中文文字资料的智能标引),基于自然语言的语义检索;各种数字化资源元数据的标准和规范化技术;提供给用户多语种的多模式友好和智能的人机交互界面;全球化的中文信息资源有效组织、集成和共享;还有版权保护、信息安全和管理等问题。在我国,像中国国家图书馆、上海图书馆等特种馆藏型数字图书馆,像清华大学、北京大学、上海交通大学等服务主导型数字图书馆雏形将逐步发展成为实用的数字图书馆,并在网上互为虚拟图书馆。他们能使读者以最快的速度获取最需要的资料,能高度实行网上资源共享。
2.按组织模式分
(1)国家投入,宏观规划,免费使用
自数字图书馆建设被纳入国家信息基础设施建设后,各国都制定了数字图书馆发展的宏观规划,纷纷重点投资实施国家级的重点数字图书馆项目,并且基本来取由国家宏观控制、统一组织实施的方法。以这种方式建设的数字图书馆有几个突出的特征:由国家投资,并纳入国家信息基础规划之中;建设基点放在重要的研究项目和重大的数字图书馆实体建设;强烈的示范性和推动型。这类数字图书馆项目主要有:中国实验型数字图书馆项目、中国数字图书馆工程、国家科技图书文献中心、中国高等教育文献保障系统。
(2)地方投入,参与建设,免费使用
以这种建设方式组织的数字图书馆几乎不进行数字图书馆的平台研究,它们的重点是具有强烈的地方特色的数字资源建设,且通过网络提供免费使用。它们主要有:上海图书馆的数字图书馆项目、辽宁省数字图书馆、中山图书馆数字图书馆。
(3)企业投入,市场化运行
推出许多数字图书馆系统,如中国知识基础设施工程、万方数据资源系统、书生之家数字图书馆和超星数字图书馆等。这类数字图书馆的特点是依靠市场生存,以市场为导向,多元化发展,多种经营并存,有鲜活的数字图书馆组织理念和信息市场经营机制。他们的优势是信息基础设施先进,信息资源加工集成化,信息资源服务见效快,市场运行可持续发展,有利于形成新的信息产业;劣势是资源重复建设和侵犯知识产权现象在我国比较严重。它们主要有:中国知识基础设施工程、超星数字图书馆、书生之家数字图书馆、重庆维普数字图书馆等。
3.按服务模式分
数字图书馆的网络服务模式可以分为被动服务和主动服务两类。
(1)被动服务
被动服务是数字图书馆网络服务的基础方式,其特点是不考虑用户的个别要求,具体实现形式一般是采用无交互Web网站模式,是一种单向信息传递模式。数字资源将以网页、数据库形式出现在网络上。用户自己取用。网页上仅提供使用指南信息,除此外无任何其他服务提供。用户处于被动地位,而系统处于主动地位,信息从资源到用户单向流动。
(2)主动服务
主动服务是数字图书馆网络服务的高级方式,其特点是考虑用户的个别要求,具体实现形式一般是通过交互式Intel网站形式,具体分为双向交互问答模式和个性化信息推送模式。在双向交互问答模式中,数字图书馆可以根据用户的请求组织资源,服务形式根据用户需求变化,系统和用户处于同等地位,信息在系统和用户之间双向交流;可以通过Chat形式实现。
在个性化信息推送模式中,用户可以根据自己的需求和爱好自行设置数字图书馆界面并定制数字图书馆资源,使得数字图书馆成为用户自己的电子书房。从而使用户处于主动地位,数字图书馆系统居于从属地位,数字图书馆只是在技术上按照用户的个性化需求定制并主动报送信息,可以通过My Library技术实现。
4.按数字存取模式分
目前,图书馆用来处理数字存取的主要模式是以网络为中心的用户机P服务器(CPS)模式和由此而演化来的Web为中心的浏览器Web服务器P数据库(BRPD)模式,后者也称为Web模式。世界上已运行的数字图书馆系统大多采用这两种模式。
(1)以网络为中心的用户机P服务器(CPS)模式
用户机P服务器模式通过消息传递机制对话,由用户机向服务器提出请求,服务器进行相应处理计算后将结果传递回用户机。在此种模式中,服务器往往只负责数据库的管理和查询。
因此客户机任务比较繁重,须配备大量的软件,尤其是较多的客户机软件和应用程序。在这种结构中,传统的服务器被分成两部分,即Web服务器和数据库服务器。Web服务器负责Web页面的管理、组织、传递和数据库查询请求的提出,而数据库服务器则负责接受Web服务器的查询请求并提供运算处理结果。因此,在这种模式中,客户机的任务比较轻松,只要配备操作系统、网络协议和浏览器等软件即可。浏览器的作用只是从web服务器下载Web页面。Web模式在资源配置、系统安全等方面比简单的客户机P服务器模式要好得多。
网络协议和浏览器等软件即可。浏览器的作用只是从web服务器下载Web页面。Web模式在资源配置、系统安全等方面比简单的客户机P服务器模式要好得多。
(2)Web模式
浏览器Web服务器P数据库(BPSPD)模式中,图书馆服务器管理图书馆的索引信息,负责执行查询及将用户的请求转交给相应的对象服务器,对象服务器管理数字对象,用户通过网络访问服务器。用户、图书馆服务器和对象服务器构成系统信传递的三角形框架。用户登录图书馆服务器,并进行查询,图书馆服务器将客户的请求转交给相应的对象服务器,对象服务器则将查询到的信息直接传送给用户,这样就实现了数字对象的发布。在IBM数字图书馆的三角形构架中,用户只能访问图书馆服务器,这保证了存储在对象服务器中的数据的安全性。图像、声音和动画等数字对象的数据量比较大,数据量大的数据对象及频繁使用的数字对象可以放在接近用户的地方,这样可以减少数字对象复制和传达的次数,减少网络的数据传递量,提高系统的性能。
加快我国数字图书馆的建设是互联网上中文知识信息的基础建设,它将迅速扭转互联网上中文知识信息匮乏的状况,形成我国知识信息的资源优势。因此,数字图书馆的建设,既代表着现代化图书馆发展的方向,更代表着先进文化的前进方向。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。