知识组织就是对数字图书馆采集的文献知识按照一定标准和规范进行序化和整合,形成有规律可循、有逻辑可依、能快速查找和定位的数字文献,文献使用者才能快捷准确地查找并获取。知识组织层技术的主要功能就是完成对知识的序化、整合和存储。
(一)存储技术解决方案
存储是数字信息系统的重要部分,稳定、安全、高效的存储方案是数字图书馆建设的基本保障。目前主要的存储解决方案有:DAS(Direct Attached Storage,直接附加存储)、NAS(Network Attached Storage,网络附加存储)、SAN(Storage Area Network,存储区域网)三种。
DAS采用独立的外接式存储设备通过IDE、SCSI等标准接口技术与服务器相连。DAS采取的是以服务器为中心的存储结构,所有的磁盘驱动器、磁盘阵列等存储设备直接寄生在对应的服务器上,因此也被称为“服务器直连存储”。作为一种传统的存储技术,DAS具有结构简单、成本低廉等优点。然而,DAS只适合短距离的数据传输,扩展性差,并且当服务器出现故障时,会直接导致存储设备无法访问。随着信息时代信息数量的急剧增长,DAS已经无法满足大容量数据存储的要求。
NAS是将带有独立文件系统的存储设备通过高速的LAN网络,与服务器相连接的一种存储结构。服务器通过NFS(Network File System)或CIFS(Common Internet File System)实现对存储设备文件级的数据访问。因此,NAS的存储设备不依赖于某个特定的服务器,可以直接上网。NAS结构的核心就是在网络中加入特定的设备,这个设备专门负责文件的输入输出操作。由于NAS存储设备直接连接到网络上,存储设备的扩容和管理变得非常容易,并且可以实现数据的远距离传输,但NAS的数据传输有一定的网络延时,其传输速度也受到网络带宽的限制,并且NAS提供的是文件级的数据访问,主要用于存储服务,因而缺乏对数据库服务的有效支持。
SAN是将各种存储设备和多台服务器通过专用光纤网络连接在一起,独立于局域网系统之外,形成几乎拥有无限存储的高速存储网络。SAN是随着光纤通道技术的出现而产生的,是一种高速共享存储系统,它通过光纤、光纤通道交换机、集线器等网络设备将多个磁盘阵列连接起来,以集群的方式进行工作。SAN采用高速的光纤通道作为传输媒体,实现了存储子系统的网络化,消除了服务器I/O处理的瓶颈,适应了海量数据存储、传输和实时处理的需要。SAN一般提供了主机与存储之间的冗余连接,提高了系统的可靠性。SAN体系结构包括服务器连接器件、存储网络连接器件、存储设备和管理软件。
早期的数字信息系统,对数据存储的需求并不大,主要采取以服务器为中心的DAS模式。随着网络技术的发展,网络正成为主要的信息处理模式,需要存储的数据大量增加,存储需求越来越大,数据的重要性逐步增加,使得各种应用逐步转化为以数据为中心,于是就诞生了基于网络的存储:NAS与SAN。NAS是网络外挂式,以网络为中心,采用现有的TCP/IP协议;而SAN是通道外挂式,以数据为中心,采用专门的FC+SCSI数据存储访问协议。NAS侧重于通用性和数据共享,SAN的优势在于不占用网络带宽。SAN技术是当今网络存储领域的关键技术,自问世之日起就备受关注,成为存储方案的主流技术。现在数字图书馆的存储解决方案通常都采用SAN技术。
(二)数据库技术
数据库技术产生于20世纪60年代中期,其主要目的是有效地管理和存取大量的数据资源。数据库技术和计算机网络技术的发展相互渗透、相互促进,已成为当今计算机领域发展迅速、应用广泛的两大领域。数据库技术发展至今,其技术体系已经拥有比较坚实的理论基础、成熟的商业产品和广泛的应用领域。数字图书馆信息组织的数据库技术,主要有关系数据库技术、面向对象数据库技术、非结构化数据库技术、多媒体数据库技术和数据仓库技术等。[4]
1.关系数据库技术
关系数据库是以数学中的关系模型、关系代数和关系演算为基础发展起来的。在数字图书馆的信息组织过程中,关系数据库技术主要用于管理各种统计数据、数值和事实数据等结构化的数据信息。
在数据存储方面,关系数据库以二维表的方式对一条条的数据记录进行管理,每一条记录允许有多个不同的字段,而且,每一条记录的每个字段的值是唯一的。在二维表数据库中,每条记录的字段不允许有子字段,且二维表数据库中每个字段的属性值的长度和类型都是事先定义好的。
在数据检索方面,关系数据库通过为每个可检索的数据项建立索引文件(Index file)进行SQL查询。对多个二维表数据项的组合检索需要对表进行链接操作,因此,当数据记录较多、数据量太大时,检索的速度比较慢。目前的Universal Database Server和对象关系数据库已实现了全文检索在关系数据库中的无缝集成。
在多媒体信息处理方面,早期的关系数据库主要擅长对文本信息的处理,还不能对多媒体信息进行处理。随着现代信息技术的发展,多媒体信息大量涌入人们的工作和生活之中,关系数据库的生产商们不得不开始研究多媒体信息的处理问题,于是一些经过改良的关系数据库实现了对超长文本、图像和声音等多媒体信息的处理,如Informix数据库允许用户自定义较为复杂的数据类型。此外,还可以对这些数据类型的操作和运算进行定义,以实现对象的封装。
2.面向对象数据库技术
面向对象数据库是面向对象方法在数据库领域中的实现和应用,它以客观世界中的实体为基本对象,用类(Class)和继承(Inheritance)来表达各个实体之间具有的共性和相互关系。当前,面向对象数据库技术仍处于不断发展和创新的阶段,在概念、原理和实现上都还没有形成被广泛接受的共识。(www.xing528.com)
目前已有一些成功的面向对象的数据库管理系统,但是其工具、环境和对面向对象方法的支持程度还有待进一步的完善。URION、IRIS、ONTOS、ObjectStore等是当前较有影响的OODBMS。许多主流的关系型数据库系统(如Oracle、Informix)也在新版本中加入了面向对象的特性,也就是对象关系型数据库。
纯面向对象数据库管理系统自然对于面向对象方法具有较好的支持,对象关系型数据库管理系统一般也应支持SQL环境中的基本类型扩充、复杂对象处理、对象类属的继承和产生式规则的应用。
3.非结构化数据库技术
非结构化数据库是相对于管理结构化数据的关系数据库而言的,关系数据库主要用于管理数字和符号之类的结构化数据,非结构化数据库主要用于管理大量的非结构化数据,如文本、图像、网页、音频、视频等。一般认为,结构化数据是非结构化数据的特例。
非结构化数据库能存储和管理各种结构化和非结构化的数据,实现了从数据管理向内容管理的转变。非结构化数据库克服了关系数据库中结构定义不易改变和数据定长的缺陷,在同一记录中允许定义重复字段,还允许给字段定义子字段。并且支持各种长度的字段,实现了对非结构化变长数据的存储管理,极大地提高了处理连续信息(包括全文信息)和非结构信息(重复数据和变长数据)的能力。
非结构化数据库通过采取灵活高效的倒排文档(Inverted file)技术实现记录检索的快速定位,从而有效地支持了各种字段和子字段之间的组配查询,提高了检索的速度和效率。
4.多媒体数据库技术
数字化图书馆存储的数字信息包括文本、图像、声音、视频等多种媒体,而传统的数据库通过引入抽象数据类型虽然可以实现对多媒体数据的简单处理,但仍无法支持对多媒体数据的深层次检索和操作。这就需要在数字图书馆中将多媒体技术与数据库技术相结合,由此,多媒体数据库技术应运而生。
多媒体数据库从多媒体信息本身的特性出发,着重解决多媒体数据的交叉调用、融合和表现集成等问题,重视用户在检索多媒体数据时的交互性。目前,多媒体数据库已经广泛应用于办公自动化、教育、医疗、刑事侦查和图情等领域。数字图书馆的多媒体数据库管理系统(Mutimedia Database Management System,MDMS)一般包括用户界面层(User Interface Layer,UIL)、多媒体数据库管理层(Multimedia Database Management Layer,MDML)和多媒体数据库层(Multimedia Database Layer,MDL)三个层次,如图7-2所示。用户通过UIL向系统提交查询请求,MDML将UIL送来的查询请求翻译成能在MDL中执行的数据库语言,再将从MDL中查询获得的结果组装成一个统一的数据对象,并传送给UIL。
图7-2 多媒体数据库管理系统系统结构
5.数据仓库技术
数据仓库技术是新时代数据库技术的最新发展,它是一个集合不同地理位置、不同数据格式、不同数据类型和不同媒体数据的各种数据库中的数据,以方便用户对数据分析,支持用户决策的过程。数据仓库不是要取代原有的数据库,而是要将各个数据库中的数据进行集成,形成一个巨型的目标数据库—数据仓库。
数据仓库技术最突出的特点就是对不同时间的大量数据进行了深度的加工和集成处理,并且面向主题,能有效支持用户决策。
数字图书馆中存储了大量的数据,包括一次信息、二次信息和三次信息,涵盖了所有的学科。基于知识管理的数字图书馆要求利用数字图书馆中的知识信息,支持用户的信息分析和决策,帮助用户解决实际问题;同时,数字图书馆的检索和使用也需要对各种异构数据库进行整合,而数据库技术在数字图书馆的应用正好适应了这一需求。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。