首页 理论教育 图情大数据:中文关联书目的发布方案研究结果

图情大数据:中文关联书目的发布方案研究结果

时间:2023-08-08 理论教育 版权反馈
【摘要】:上图于2017年启动了“关联书目数据发布项目”,初步以上海联编中心的150万余种普通图书为例,探索关联书目数据的发布流程、数据建模、内容组织和技术实现方案。图4-9关联书目数据发布流程图数据建模是MARC数据转换为RDF数据的基础,为RDF数据定义主体所对应的类、谓词所对应的属性、客体的取值约束,并用形式化的术语词表规范地表达,形成书目本体。

图情大数据:中文关联书目的发布方案研究结果

关联数据的四原则对于书目数据在互联网环境下的开放、共享和融合至关重要,当书目数据转换为RDF格式,书目数据所描述的文献被作为对象化的“东西”赋予HTTP URI,就天然地发布到Web上并成为Web的一部分,可在全网域范围内被唯一标识和定位。当通过Web访问文献的HTTP URI时,返回RDF格式的书目数据,就为书目数据在互联网环境下跨平台和跨领域的开放共享奠定了基础。若可以在数据底层(三元组)将来自不同网域的资源对象关联起来,就为互联网环境下的多源数据融合带来了可能。传统的OPAC是为读者提供文献服务的,MARC以文献为描述对象,以记录为基本单位,一条MARC记录往往对应着一种文献,而RDF以三元组为基本单位,对应的是事实和知识,这就为细粒度化的数据服务和知识服务奠定了基础。

关联数据技术包括数据的发布和消费两个方面,关联书目数据是用关联数据发布技术发布书目数据,并用关联数据消费技术提供开放数据应用开发接口,在互联网上提供面向机器、可被第三方程序调用的开放数据服务。

上图于2017年启动了“关联书目数据发布项目”,初步以上海联编中心的150万余种普通图书为例,探索关联书目数据的发布流程、数据建模(包括本体模型和词表以及与CNMARC的映射)、内容组织和技术实现方案。

1)关联书目数据发布流程

关联书目数据发布的流程可分为数据建模、数据清洗、数据转换、数据发布四个步骤(图4-9)。

图4-9 关联书目数据发布流程图

数据建模是MARC数据转换为RDF数据的基础,为RDF数据定义主体所对应的类、谓词所对应的属性、客体的取值约束,并用形式化的术语词表规范地表达,形成书目本体(ontology)。数据建模包括模型设计、词表设计、映射设计三个部分。

数据清洗的目的是为将书目数据中的字符串转换为实体对象做准备,根据映射设计将CNMARC中的字段映射到书目本体中的类和属性。首先要对CNMARC格式的数据进行解析,将“记录-字段-子字段-值”的结构解析为“类-属性-值”的结构,其次根据书目本体定义的类,提取人、地、机构等规范数据、取值词表,以及各类书目实体,并进行纠错、去重、消歧、合并等清洗工作。

数据转换是为规范数据、取值词、书目实体生成实体对象并赋予HTTP URI,根据书目本体的定义和CNMARC数据的情况对每个实体的属性赋值,并以RDF序列化格式编码,同时在各类实体间建立起关联关系的过程。

数据发布主要解决的是RDF数据存取,在Web上提供检索、展示、统计等面向人的服务和面向机器的开放数据服务等问题。

2)数据建模方案——基于BIBFRAME的中文关联书目数据模型

(1)本体设计

本体设计包括模型设计和词表设计,模型设计是通过分析书目数据中的实体关系,抽象出概念,定义概念间的关系,如FRBR即是最早的融入面向对象思想的书目数据模型,其中提出了“作品”“内容表达”“载体表现”“单件”“人”“机构”等概念并定义了相互之间的关系。词表设计是用规范的术语词表来表达模型中的概念、概念的特征和概念间的关系,概念用类(class)来表示,概念的特征和概念间的关系用属性(property)表示,需要对每个类和属性进行明确的定义,如类的继承关系、属性所描述的类和属性的取值范围和约束等,并用机器可理解的形式化语言编码。

欧美日韩等国的关联书目数据项目所采用的书目数据模型主要有欧洲数字图书馆的EDM,美国国会图书馆的BIBFRAME和OCLC的SchemaBIBEx,其中EDM是适用于图书馆、档案馆、博物馆文化继承机构的关联数据模型,强调数字化对象与实物的关系;BIBFRAME是为关联书目数据而设计的书目数据模型,是对FRBR的继承和简化,定义了作品、实例、单件、人、机构、地点、事件等概念及其相互之间的关系;SchemaBIBEx是基于Google等推出的schema.org的书目扩展。在比较了三者的差别后,由于BIBFRAME的一个重要目的是替代MARC,在设计的过程中与MARC的映射和转换作为重点考虑,并发布了一系列MARC21与BIBFRAME的映射,CNMARC虽然与MARC21有诸多不同,但仍可参考和借鉴,不需要从头开始,因此决定选择BIBFRAME作为中文关联书目数据的基础框架,并根据CNMARC的特殊性在BIBFRAME的框架下进行扩展。

词表设计是将模型形式化,使人和机器可读的过程,用规范的术语表示类和属性。本研究所用的词表由82个类和87个属性组成,其中大部分来自BIBFRAME,少量复用自DC、MADS、foaf、BIBO,也有自定义的术语(前缀为“shlbib”),该词表已发布在http://bib.library.sh.cn/ontology。

(2)映射设计(从CNMARC到BIBFRAME)

经过近半个世纪的发展,MARC逐渐繁殖成格式复杂、字段众多的数据格式。一方面,字段大致可以分为必备字段、特定资源必备字段和选择使用字段。编目机构在制定本地著录细则时,会根据需要将部分选用字段重新规定为必备、特定资源必备或有则必备字段。另一方面,某些沿用自磁带技术的字段及其取值代码在映射到本体词表后将不再有意义,需要排除在映射表之外或规定其取值规则。首先我们以标准CNMARC规则为基础,结合《上海联编中心字段汇总表》,对上海联编中心CNMARC字段的使用情况进行统计分析,明确字段意义,并最终确定了字段映射的范围和优先级

BIBFRAME2.0将书目数据分为作品-实例-单件(work-instance-item)的核心实体层,每层实体有不同的属性,而一条CNMARC记录是按照标识块、编码信息块、著录信息块、附注块、款目连接块、相关题名块、主题分析块、知识责任块、国际使用块和国内使用块10个功能块依次展开的层次结构。每个功能块中混杂有作品、实例或单件的属性和关系。BIBFRAME同一个核心实体的属性关系会映射到不同功能块的字段,不同核心实体的属性关系也会映射到相同功能块的同一个字段。

作品是被编目资源的概念本质,是抽象的存在。与作品相关的属性或关系有责任者、主题、语言、类型、体裁等。而MARC记录是以文献的物质载体为主要对象进行编目,映射作品的相关属性和关系时,就需要从这些物质对象的字段中提取出来,包括著录信息块的200字段、附注块的311和313等字段、款目连接块的4××字段、相关题名块的500等字段、主题分析块的6××字段,以及知识责任块7××字段。

实例是作品的具体化表达,反映了作品多样的表现形式和载体形态。基于文献描述的MARC数据有大量的字段都是与实例有关的属性或关系,包括标识符、版本、出版发行、载体题名、载体附注等。除了主题分析块和知识责任块字段,其他8个功能块都有大量字段映射到实例层的属性和关系。

单件是实例的物理电子版的单一复本,包括获取条件、借阅政策、访问网址、条码、索书号、流通状态等。支持流通业务的馆藏信息不是本次实验项目的关注点,因此单件级的映射以最简化的方式处理,对索书号和电子资源访问地址进行了映射,即国际使用块的856字段和国内使用块的905字段。

在普通图书类CNMARC字段映射中,大部分字段与BIBFRAME词汇之间是一对一映射,即一个字段或子字段只映射一个RDF三元组,如205版本字段映射到BIBFRAME是“instance-editionStatement-literal”这一个三元组。其次是一对多的映射,即一个字段或子字段映射到多个RDF三元组,如200题名字段,同一个字段需要映射到“work”和“instance”两层不同的三元组。还有多对一映射,多个字段或子字段可以映射到相同的三元组,即含义重复的字段。在这类映射中,需要进行映射优先级判断,如出版发行时间字段的210$d$h与100$a第9~16位,作品题名500与200字段等。其次还有特殊的一对多关系:第一,字段在指示符不同的时候含义不同,同一个字段就会映射到不同的三元组,典型的如团体责任者字段,当第一指示符是0时,表示团体,映射后三元组的宾语就是Organization,当是1时,则为Meeting;其二是定长字段同一栏位根据取值需要映射到不同或多个三元组,如106字段根据取值不同,会有不同的映射三元组,若取值是d,含义是大型印刷本,映射三元组是“instance-fontSize-FontSize”,若取值是e,表示文献是报纸形式,三元组就是“instance-genreForm-GenreForm”。

3)内容组织方案——数据的规范、整合和关联

(1)书目实体组织

基于BIBFRAME模型的书目实体主要包括作品(work)、实例(instance)、单件(item)这三类核心实体,明确地认定和表达这三类实体之间的关系是关联书目数据发布的关键

书目实体中最重要的是作品。1847年,Anthony Panizzi在为大英博物馆图书馆制定编目规则时,第一次使用了“作品”这个术语,并提出“一个读者可能知道他所需要的作品,但不能期望他知道所有的版本;这些信息他有权利从目录中获取”。随后1998年发布的图书馆概念模型FRBR第一次正式定义“作品”为“独有的知识或艺术的创作”。自此,作品成为构建层次性的图书馆数据结构和目录的基础。(www.xing528.com)

内容组织的难点也是作品的认定和作品相关属性的提取。虽然BIBFRAME的作品内涵包含了FRBR的作品和内容表达。但在实践中,某些属性不建议放在作品层,而是作为实例的属性发布,部分属性是既放在作品层又放在实例层。如101$d提要语种子字段,它属于FRBR内容表达的属性,但在BIBFRAME数据中可以只放在实例层。7××责任者字段是针对作品及其内容负责的实体对象,属于FRBR作品和内容表达层,在本研究中主要责任者是放在作品层,实例层则包含了所有的责任者关系。另一方面,在多条MARC书目记录属于同一个作品时,作品的描述属性就需要从所有的记录中提取。这就涉及属性值的来源问题,本研究则自定义了属性“shlbib:source”,保留CNMARC记录的唯一标识号来说明属性值的来源。

本研究将作品分为普通图书、汇编文献、年鉴和集刊、丛书四种不同的类型来处理,在表达作品与实例的关系时,也因文献类型的不同而有所区别,尤其是除普通图书之外的其他三种特殊文献。对于无总题名的汇编文献,即一个实例有多个作品,又需要分成同一责任者汇编和不同责任者汇编两种情况考虑。对于年鉴和集刊这两类定期连续出版的图书使用了“超级作品”的概念。超级作品是一个没有实例的抽象实体,起到聚类的作用。具体到年鉴,例如《中国历史学年鉴》为超级作品,某一具体年份的《中国历史学年鉴》与超级作品的关系用bf:part Of来表达。对于丛书的处理,在本研究中,只有在丛编项中题名和责任者同时被著录的才作为作品赋予HTTP URI发布,便于识别和将该丛书的所有子目的实例通过这个作品聚集在一起,如果只有题名没有责任者,则只将丛书的题名作为丛书子目实例的属性值,虽然无法建立关联,但可支持字符串匹配的检索。

(2)规范实体

除了作品的认定外,关联书目数据发布中的一个重要任务是提取书目数据中的人名、地名、机构团体名称等规范数据,作为对象实体而非字符串。由于上图在近几年的数字人文平台建设中,已经建立了基于关联数据的“人名规范库”“地理名词表”“中国历史纪年表”等规范库和术语词表,用于家谱、古籍、手稿、档案的人名、地名、朝代的规范控制,因此在本研究中,也尽量利用和完善已有的规范数据。同时,也利用了中国国家图书馆名称规范档(简称“国图规范档”)的数据,将国图规范档中存在的上海联编中心书目数据中的人名融合到上图人名规范库。如此一来,上海联编中心的书目数据中的责任者可直接引用人名规范库中的人物实体,出版地等地名直接引用上图地理名词表中的地名,而机构团体名称、会议名称为上海联编中心书目数据所独有,另行发布。

(3)取值词表

在关联书目数据中,为了改善数据的规范性,避免编目过程中的录入错误,促进数据共享,避免数据冗余,需要对一些重要属性的取值进行规范。一个主要的手段是整理这些属性的常用取值,并为每个取值词赋予一个HTTP URI,以便于在编目中引用,在检索中聚类和分面。本研究为上海联编中心的书目数据整理了五种取值词表:发行方式、读者对象、文献类型、图表类型、语种。

4)技术实现方案

(1)数据清洗、编码、转换

关联书目数据建立在书目本体的基础上,本体中的属性通过定义域(domain)和值域(range)来约束与规范属性的描述主体和取值客体,生成一条“主-谓-宾”结构的RDF三元组,其中主体是一个由HTTP URI唯一标识的对象,客体可以是文本型的值,也可以是另一个由HTTP URI唯一标识的客体,需要在书目数据中提取实体对象及其属性和属性值。因此需要对CNMARC数据进行清洗,目的是实现对各类书目实体和规范实体的提取。首先要找到哪些字段是对同一个实体对象的描述,然后合并重复的数据,选择正确的数据。数据清洗主要是对书目实体(作品、实例、单件)和规范实体(人物、地名)、取值词表进行去重、合并、消歧等工作,提取各种实体并赋予HTTP URI,为属性赋值,与其他实体建立关联并以RDF序列化格式编码,实现从CNMARC到BIBFRAME的转换。下面首先说明本研究所设计的HTTP URI设计模式,再以人物实体和作品实体的清洗、编码和转换来说明整个流程、方法和技术。

HTTP URI设计模式是关联书目数据发布的基础,一套合理的HTTP URI设计模式有助于实体的识别和管理。首先,定义关联书目数据发布的根URI(base URI)为http://bib.library.sh.cn,其次决定哪些实体需要发布HTTP URI,哪些实体用空节点(blank node),一般的原则是,需被其他实体多次重复关联或可在Web上被参引(dereferenced)的实体需要发布HTTP URI,而只在本地系统内作为某个RDF三元组中谓词的值,并不会作为其他RDF三元组谓词的值的实体,则不发布HTTP URI,而用空节点表示。最后为各类实体设计HTTP URI模式,如表4-1所示。

表4-1 HTTP URI设计模式

对于人物实体,先将上海联编中心150余万书目数据中涉及的人名(701字段)与国图规范档中155万余人名进行匹配,发现有77万余人与国图规范档重合。将这77万余人与上图人名规范库进行匹配,发现有7万余人是重复的,合并去重后得到84万余人。对于7万余重复的数据,直接获取人名规范库中的HTTP URI,对于人名规范库中不存在的人,按照人名规范库人物实体HTTP URI生成规则赋予新的HTTP URI,作为书目数据中相应的责任者属性的值。

由于将人物作为实体而非字符串看待,而一个人的信息不仅只有人名,还包括生卒年、籍贯、生平事件、任职经历、著述、小传、与其他人物的关系等信息。上图人名规范库基于图4-2所示的人物本体模型建设,对于人名规范库中不存在的人,需要根据该本体模型对人物信息进行清洗、编码和转换。国图规范档中有关于人物的简短小传,在小传中有生卒年、籍贯、人物的各种别名、著述等简单说明,但却是一段非结构化的文本,因此数据清洗的主要工作是从小传中提取结构化的数据。对于人名规范库中已存在的人物,则需要进行合并。合并的原则是对于生卒年、籍贯等客观唯一的属性,只保留一个值,而对于生平事件、任职经历、小传等客观不唯一的属性,则保留多个值,并注明其来源,如茅盾就有来源于上图名人手稿数据库的小传,和来源于国图规范档的小传。

为人物实体赋予HTTP URI,按照本体组织属性、属性值、与其他人物实体之间的关系,需要以RDF序列化格式编码,在浏览器上访问“http://data.library.sh.cn/entity/person/t3qypozz7y13mfdt.json”,可查看“茅盾”的RDF/JSON格式数据。

“作品(Work)”实体提取的关键点在于“作品集信息键”的构建,也就是构建“责任者/题名信息键”。责任者是对作品负有第一责任的个人或团体,在CNMARC字段中,是所有的701字段或711字段。题名信息是作品的首选题名信息,取自CNMARC的500字段或245字段,500字段的优先级高于245字段。因此,常规的作品信息键构建公式是“{500>245}/[701*+711*]”。如果不同书目数据构建的作品信息键取值相同,则说明它们是同一个作品的不同实例,这样就可实现将不同作品的所有实例聚集到一起的目标。

上海联编中心在2017年借助国图规范档实施了规范数据与书目数据的挂接工作,在书目数据7××字段新增了$3记录国图规范档唯一标识号。因此,信息键的责任者部分只需提取$3参与匹配即可。题名信息则包含了500/200的$a、$h和$i三类子字段。如前所述,题名信息键从三个子字段取值拼接,要保留原始的顺序参与匹配。

对于书目实体的提取,本研究的实施方法和流程是,先从CNMARC书目记录的相应字段中抽取所有的“作品集信息键”,进行去重合并后生成“作品(work)”,可能有多条CNMARC书目记录共同生成一个作品。为所有的作品赋予HTTP URI的同时,记录每个作品是哪些CNMARC书目记录合并而成的,即建立一张作品URI与CNMARC唯一书目记录号(039$b)的映射表。接下来从一条CNMARC书目记录中抽取一个“实例(instance)”实体,通过映射表找到对应的“作品”实体,用bf:InstanceOf属性建立“实例(instance)”实体与“作品(work)”实体之间的关联。接下来生成“实例(instance)”对应的“单件(item)”,用bf:item Of来建立“实例(instance)”与“单件(item)”之间的关联。

(2)数据存储、发布、服务

将所有的规范实体、书目实体、取值词表转换为RDF数据,存储在RDF存储库(RDF Store)中后,就可以在Web上发布,并为人提供检索、浏览、展示服务,为机器提供开放数据服务了。

在本研究中,采用专用的RDF存储容器RDF Store而非关系数据库来存储书目实体和部分规范实体和取值词表的RDF数据,人名规范库和地理名词表的数据也存储在RDF Store中,优点之一是RDF Store可以直接导入RDF数据,并支持RDF专用查询语言SPARQL对RDF Store中的RDF数据进行查询和更新,无须像关系数据库那样设计数据库表结构,数据的结构由本体词表决定;优点之二是RDF Store支持SPARQL endpoint来向Web开放RDF数据,允许在Web的任何服务器或客户端上编写SPARQL查询语言,查询和获取RDF Store中存储的RDF数据。

在数据发布和服务层,主要分为:为人提供检索、浏览、展示和书目控制服务;为机器提供开放数据服务。

5)案例总结

与传统的OPAC相比,关联书目数据可提供作品-实例-单件分层聚类浏览功能,同时书目数据中涉及的各类实体之间丰富的关联关系也得到展示。由于作品、实例、单件、人、地、机构等都作为实体,因而可以提供基于概念的检索:可根据实体的各种属性检索到该实体,或者根据实体间的关系检索到该实体。

以人物实体为例,当在责任者检索框输入人物的名称后,系统会通过人名规范库中提供的SPARQL endpoint检索到对应的人物实体,得到其HTTP URI,再到书目实体库中检索责任者的值为该HTTP URI的书目实体。由于匹配的是HTTP URI,而不是字符串,因而无论输入人物的任何一个名称,如“矛盾”“沈雁冰”或“沈德鸿”,得到的结果数量均一致,是茅盾这个人物所有的书目。不仅实现了对一个作者的所有作品的书目控制,也是对查准率查全率的改善。

关联书目数据的主要目的是将书目数据从封闭的MARC格式和专业的图书馆领域中释放出来,在Web上为机器提供开放的、规范的书目数据,超越领域、平台和系统的限制,为任何第三方程序提供应用开发接口,鼓励其他领域应用图书馆的数据,使书目数据得到更广泛的传播和利用。本研究中,以三种方式为机器提供开放数据服务,首先,所有的实体都有HTTP URI,访问一个实体的HTTP URI,即可返回关于该实体的RDF数据;其次,通过开放SPARQL endpoint和本体词表来提供跨网域的RDF数据查询和获取;最后,还将提供各种封装的API,为不同程序语言的程序员提供方便的数据访问接口。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈