方志元数据是描述方志资源的描述性数据。在20世纪初,计算机没有普及应用之前,志书的著录信息是记录在卡片、图书等纸质载体上的,人们将众多的方志目录汇编成方志书目,例如朱士嘉编纂的《中国地方志综录》、张国淦的《中国古方志考》[19]。20世纪下半叶,随着机读目录格式MARC的普及,方志元数据以CNMARC著录形式存在于图书馆自动化系统中。20世纪末,DC元数据开始兴起,我国科技部科技基础性工作专项资金重大项目“我国数字图书馆标准规范建设”参照DC的扩展规则制定了数字资源基本元数据规范和专门元数据规范,推出了“地方志描述元数据著录规则”[20]。著录规则的不同,导致元数据规范不一致。目前采集到的元数据来源于图书馆集成系统、图书馆自建库、商业数据库。其中图书馆集成系统中的方志元数据以MARC存储,由OPAC导出后,数据最为复杂,商业数据库包括超星、爱如生、瀚唐等的方志,以及CADAL里的方志元数据多遵循地方志描述元数据著录规则。除著录规则不一致外,由于软件系统的不同,也使得方志元数据不一致,具体有以下问题。
(1)元数据著录不一致。表10-1和表10-2分别为OPAC导出的方志元数据格式和中国方志元数据著录方式,通过对比发现两者有明显的区别,例如OPAC导出的数据以“作者-creator1”“作者-creator2”“作者-creator3”表示责任者,中国方志库以“作者-修”“作者-纂”表示责任者;OPAC导出的方志元数据为简体,而中国方志库元数据为繁体。
表10-1 OPAC导出方志元数据及其示例
续表
表10-2 中国方志库元数据及其示例
(2)元数据的字段数量不一致。如表10-1和表10-2所示,OPAC元数据的字段数量明显多于中国方志库里的元数据字段数量。(www.xing528.com)
(3)元数据粒度不够细致。以古籍文献为核心描述对象的元数据规范,就单个元素的取值来看,是非结构化文本,粒度还不够细致[21]。
(4)方志本身存在汇编的问题。汇编作品是指根据选题需要,在不改变原作品内容的前提下,对其进行编排以合集形式呈现的新作品[22]。当单部作品作为汇编作品的部分存在时,在编目实践中,对汇编作品进行集中著录。方志有很多是以汇编的形式存在,原有的编目实践无法直观地表现单部作品与汇编作品关系。从汇编作品中提取单部方志作品,有利于加强对单部方志作品、责任者等实体的描述,有利于更好地实现方志的查找、识别和选择,同时有利于汇集方志所有作品的载体表现形式。例如以“太平县古志三种”为例,其实际是数据为“嘉靖太平县志/(明)曾才汉修;叶良佩纂;嘉庆太平县志/(清)庆霖修;戚学标纂;光绪太平续志/(清)陈汝霖,邓之锳修;王棻纂”的三本县志,其在OPAC元数据中却只在附注中体现汇编作品与单部作品的关系。汇编作品与单部作品的关系不够明显,且单部作品的详细信息很难找到。
(5)数据重复。由于方志资源被多个系统或多个馆收录,这样就造成元数据在合并时会存在数据重复问题。例如,以“西安县志(浙江)”为例,这本方志同时存在于北京师范大学图书馆、上海师范大学图书馆;以“八闽通志(福建)”为例,其同时存在于北京师范大学图书馆、内蒙古大学图书馆。当越来越多的图书馆方志元数据整合在一起,重复会更多。因此在将新方志元数据整合入原有的数据中时,应首先检查新的元数据是否是重复数据,如果不是重复的数据,应查看有哪些属性不一致,检查、采用正确的元数据。
(6)方志元数据著录错误。方志文献浩如烟海,在后世史志中难免出现著录错讹,包括由于地名改变导致的方志名称著录错误、由于著作权归属存在争议导致的方志纂修者姓氏著录错误、由于内容增删导致的方志卷数著录错误等[23]。由于元数据的著录可能有错误,因此在整合的过程中,应注意方志元数据的正确性,特别是当表示同一方志的两条或多条元数据不一致时,应仔细甄别。
(7)整合过程复杂。要整合的图书馆方志元数据数量很大,需要编写程序实现自动整合,并辅以人工检查。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。