首页 理论教育 CADAL数字图书馆:数字对象编码应用研究

CADAL数字图书馆:数字对象编码应用研究

时间:2023-10-27 理论教育 版权反馈
【摘要】:[3]表9-1编码标准9.1.1.3 数字对象与字符编码数据元素数据元素是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理。

CADAL数字图书馆:数字对象编码应用研究

9.1.1.1 数字对象

数字对象是指能够独立存在的有完整意义的数字化信息单元,或是多个这样单元的集合,是性质相同的数据元素的集合。一个数字对象由3个要素组成:数字对象元数据、数字对象数据体和数字对象句柄。[1]

数字对象元数据是描述数字对象属性的集合,如一篇学位论文的DC记录。数字对象数据体:数字对象内容的载体,如一首歌曲的MP3文件、一篇论文的PDF文件。数字对象句柄:用来标识数字对象的一组字符串信息,是定位数字对象的依据,如ISBN、分类号、DOI等,只要它能够唯一地确定一个数字对象,都可作为数字对象的句柄。

网络环境下的数字对象,它的信息交换模式决定了数字对象的存储和传输模式。按照数字对象的存储和传输模式,数字对象可以分为4个大类:

(1)静态文档对象。数字对象是以文本、图像、图形的文件或文件包来呈现,如HTML,TXT,DOC,PDF,或者一个RAR,ZIP等文件包。

(2)流媒体对象。主要是指音频和视频文件,如MP3,MPG,AVI,RAM,WMV,FLV等。

(3)复合数字对象。数字对象主要由一个主控文档和若干个静态文档对象或流媒体对象组成,如一个大型会议网站,它是由一个主页(主控文档)、静态文档对象(图片和文字介绍)和流媒体对象(会议影像片段)组成。

(4)交互式对象。拥有很多素材库和专业的软件系统,需要复杂的后台处理,如数字图书馆中的文献传递系统、虚拟参考咨询系统等。

9.1.1.2 字符编码

字符是文字和符号的总称,它包括文字、数学符号、图形符号等。一组抽象字符的总和称为字符集(charset)。

计算机在处理字符时,就需要将字符和二进制码对应起来,这种对应关系就是字符编码(encoding)。在制定编码时,首先,要确定字符集,并按照一定规律在字符集内进行字符排序;其次,将字符和二进制数字一一对应起来。根据字符集内字符数的多少再确定采用多少个字节来编码,每一类型的编码都是限定了一个明确的字符集合,叫作被编码过的字符集(coded character set)。根据编码自身的规则和特点,可以分为单字节字符编码、ANSI编码和UNICODE编码3类,见表9-1。

(1)单字节字符编码:是最简单的编码规则,每一个字节就是一个UNICODE字符。

(2)ANSI编码:就是把多个UNICODE字符串经过ANSI编码转化成一个“字节串”,按照各自编码的规则,一个UNICODE字符也可以转化成一个字节或多个字节。相反地,将字节串转化成字符串时,也可能是多个字节转化成一个字符。

归纳起来,ANSI编码具有两个比较显著的特点:

1)ANSI编码标准只能处理各自语言范围之内的UNICODE字符。

2)UNICODE字符和转换出来的字节两者之间的关系是人为设定的。(www.xing528.com)

(3)UNICODE编码:类似于ANSI编码,把字符串通过UNICODE编码转化成字节串时,一个UNICODE字符可能转化成一个字节或多个字节。[2]

归纳起来,UNICODE编码具有两个比较显著的特点:

1)UNICODE编码能够处理所有的UNICODE字符。

2)UNICODE字符与转换出来的字节两者之间可以通过计算得到。[3]

表9-1 编码标准

9.1.1.3 数字对象与字符编码数据元素

数据元素(data element)是数据的基本单位,在计算机程序中通常作为一个整体进行考虑和处理。数据元素也称作元素、节点、顶点、记录。数据元素可以分为两类:一类是不可分割的“原子”型数据元素,另一类是可以由若干个数据项(也可称为字段、域、属性)组成的数据元素。

数据元由表示、特性和对象类3部分组成,其中,对象类是用于收集和存储数据的事物;特性是用来描述和区别对象的;数据的表示部分中最重要的是值域,值域是数据元值的集合。数据元中的值域可分为两种不同类型:一是所谓取值是固定值,即取值是可枚举的值,如定义颜色这个数据元,其取值会包括Gray,Brown,Hazel,Green,Blue;二是概括值,即数据元取值是有定义域约束的,其取值可能是有限的,但是无法列出全部值,如出版物的年限年龄,其取值范围可能是1990—2013,并且每位要求以字符串表示。[4]

数据元素本身也是一个事物,既然是事物,那么就需要属性来描述这一事物,通常我们也将描述属性称为描述数据元素的元数据。

9.1.1.4 标记语言

标记语言也称置标语言(markup language),是一种可以展现出关于文档结构和数据处理细节的文字编码;是一系列制定好的标记来对电子文件进行标记,来实现对电子文件的语义、结构、格式的定义。

标记语言不同于一般用来设计应用软件的语言,而是用来制作电子文件的一种语言。标记语言顾名思义是由一些标记(tags)所组合而成的,而这些标记倘若单独存在的话是没有意义的,它必须结合一些所谓的“数据”后才会变成有用的电子文件。标记语言可分为两大类:特殊用途的标记语言和一般通用的标记语言。

特殊用途的标记语言是为特定的某种应用软件或者是应用而特别制定的,如HTML、XML、XHTML等,这类的标记语言其应用范围较小,故其本身的复杂度就会比较低。

可扩展标记语言(eXtensible Markup Language,XML)具备了SGML的核心特性,又非常简洁,XML规范的内容甚至不到SGML的十分之一。虽然SGML的成熟度与稳定度都非常高,但是SGML太过于复杂,以致无法在网站上普及应用,而HTML又过于简单且缺乏弹性而无法满足网站在各方面的应用。为了解决这些问题,有专家提出了XML,XML既能够继承SGML的优点又不会太复杂,而且能弥补HTML的不足之处。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈