首页 理论教育 高校图书馆实践:整合方志元数据的方法

高校图书馆实践:整合方志元数据的方法

时间:2023-11-05 理论教育 版权反馈
【摘要】:表10-3原有方志元数据与BIBFRAME核心书目数据模型的映射关系表①输入字符串:用数组S=C[0,n]来表示元数据,如:陶元珍著,则 n=3。表10-4古籍著作方式特征库在实际元数据拆分的过程中不仅仅是责任者与责任方式的拆分,还涉及各种字段的拆分。图10-3方志元数据与知识本体的对应除了数据拆分、查重、映射外,整合的

高校图书馆实践:整合方志元数据的方法

为了给人文研究学者提供单一的、资料完备的方志系统,必须解决前文描述的方志元数据问题,包括元数据一致性、重复问题,以及元数据粒度等问题。针对以上问题,项目组采取了一系列方法,包括选择新的元数据方案,将原有元数据映射到新的元数据方案上,进行数据拆分、数据查重,图10-1为整个项目数据处理及在其上提供服务的流程图。从图中可以看出,元数据处理流程中主要包括数据拆分、数据查重、数据校正、数据外联及数据映射等过程。

图10-1 方志元数据整合处理流程图

(1)选用新的元数据方案

在元数据处理之前,首先需要确定元数据方案,为了改变原有的CNMARC格式著录的方志元数据的繁琐、DC格式著录的方志元数据的复杂性,达到方志与外部数据的相互关联、互操作的目的,项目组选用了美国国会图书馆的BIBFRAME书目数据格式。美国国会图书馆于2012年启动“书目框架转换行动”,开发BIBFRAME关联数据模型、词表、应用纲要、编码规范等以取代MARC,使其成为下一代图书馆数据格式,并于2017年6月在Library.Link发布[24]。目前上海图书馆已使用BIBFRAME书目数据将其家谱数据库、古籍善本等发布为关联数据[25]。BIBFRAME的核心书目数据模型是“作品(work)—实例(instance)—单件(item)”,“作品”反映了编目资源最本质的特征,由作者、语言和题名决定;“实例”与出版者、出版地点、出版时间、出版形式有关,是作品的出版形态;“单件”与存在的位置、书架、条形码有关,它决定了书的获取方式[26],表10-3是原有方志元数据与BIBFRAME书目数据模型的对应关系。

(2)数据拆分

我们首先介绍“责任者+责任方式”的拆分。

以OPAC导出的数据形式为例,方志元数据是以“责任者+责任方式”存储责任者和责任方式。将“责任者+责任方式”分割,“责任者”“责任方式”单独存储,可以准确地展现著者对于这种古籍所负有的实际责任,以及不同责任者之间的关系。地方志的著录方式很复杂,参考相关文献并使用词频统计软件获得著录方式库,表10-4列举了一般的古籍著作方式,实际情况还有多种组合形式如“编著”“编纂”“增修”“校注”等。采用“基于字符串匹配的中文分词”来识别“姓名”,具体的元数据切分算法如下。

表10-3 原有方志元数据与BIBFRAME核心书目数据模型的映射关系表

①输入字符串:用数组S=C[0,n]来表示元数据,如:陶元珍著,则 n=3。

②TYPE_SET表示著作方式的集合,TYPE_SET={著,作,考订...}。

③ 输出:NAME=S[0,j]表示作者名,TYPE=[j+1,n]表示著作方式。

表10-4 古籍著作方式特征库(www.xing528.com)

在实际元数据拆分的过程中不仅仅是责任者与责任方式的拆分,还涉及各种字段的拆分。以“太平县古志三种”为例,其实际是数据为“嘉靖太平县志/(明)曾才汉修;叶良佩纂;嘉庆太平县志/(清)庆霖修;戚学标纂;光绪太平续志/(清)陈汝霖,邓之锳修;王棻纂”的三本县志:通过特殊符号“/”提取分开题名及责任者,通过特殊符号“( )”提取朝代;然后通过责任者方式提取责任者和责任方式。拆分的过程,首先是人工查看元数据、发现其规律,然后编写程序,机器自动化拆分,是一个不断试错与纠正的过程。

接下来我们介绍汇编作品的拆分。

方志汇编情况可以从其“主题”或“附注”两个元数据字段里得知:主题字段中标明是汇编的作品,数据以单个的志书分隔,提取单个题名,放入增加的字段“题名-(RealTitle)处理后题名”分隔后,提取最后一集的地名作为GIS的“地”,年号作为GIS的“时”;附注字段中标明是汇编的作品,根据附注字段,将附注字段作为“题名-(RealTitle)处理后题名”存储,图10-2给出了对于主题字段中标明是汇编作品的拆分示例。

汇编作品的拆分仍然是一个字符串拆分的过程,图10-2所示的拆分主要是通过特殊字符“;”拆分。在元数据拆分以及之后的再赋值的过程中,需要词库来识别诸如“乾隆”是年号,“清代”是朝代,地名是“福建屏南县”。一方面我们可以建立自己的词库,另一方面我们也可以利用网上的免费词库或分词软件来进行拆分。

图10-2 主题字段标明的汇编作品拆分示例图

(3)数据查重

对方志元数据进行拆分,还需要对方志元数据进行查重。由于同一条记录会被不同馆或不同数据库收录,所以在整合元数据时需进行查重。查重的原则是按照“CALIS书目号”—“ISBN+题名”—“题名+责任者+出版者+出版年”的顺序进行,即首先根据方志元数据CALIS书目号查重,如果没有CALIS书目号,则根据“ISBN+题名号”查重,若还是没有,则根据作品的“题名+责任者+出版者+出版年”查重。若出现匹配情况,则该记录会被认作重复记录。对于重复记录,选择完整度高的记录作为新记录更新数据库中的原记录,并根据实际情况,在馆藏机构或数据源里增加馆藏或来源。如果都不匹配,则认为该记录与数据库中记录不重复,该记录会被插入数据库中。

(4)数据映射

BIBFRAME是关联数据模型,使用的是“资源—属性—属性值”三元组表达元数据的内容,因此需要将原有的方志元数据转换为新的元数据三元组,除了上述介绍的书目实体(work、instance、item),还有人、时、地、机构等实体,这些都需要从方志元数据中提取,提取后赋予HTTPURI,为属性赋值,并与其他实体建立关联,并以RDF序列化格式编码,从而实现DC、CNMARC到BIBFRAME的转换。图10-3是方志元数据与知识本体的对应图,由OPAC导出方志的元数据对应到BIBFRAME三元词表上。以标志符(ISBN、CALIS书目号、书目机构号)为例,其对应的subject分别为bf:Instance、bf:Instance、bf:AdminMetada,对应的 predicate都为 bf:identifiedBy,对应的 object分别为 bf:Isbn、bf:Local、bf:Local。

图10-3 方志元数据与知识本体的对应

除了数据拆分、查重、映射外,整合的过程中还可对元数据进行校正、修改,通过调用其他平台的API形式以达到直接取用其他资料库数据的目的,从而实现与外部数据的互联。例如通过调用中国历代人物传记资料库与上海图书馆人名规范库的接口,可以直接查询方志责任者的生平及他的其他作品等情况。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈