首页 理论教育 图情大数据:创新过程中的人名规范库建设

图情大数据:创新过程中的人名规范库建设

时间:2023-08-08 理论教育 版权反馈
【摘要】:图4-2是上图人名规范库的人物本体模型,由概念和概念间的关系组成。要满足用于数字人文的人名规范控制,需要人物百科、人名辞典、专业人物数据库的信息来补充。来自上图人名规范档中的生卒年则可作为该人物实体的生卒年的属性值,

图情大数据:创新过程中的人名规范库建设

1)数据建模

人名规范库的数据建模工作的主要任务是抽象出“人”这个概念,概念的各项特征属性,如生卒年、籍贯、国籍等,以及与相关概念间的关系,包括人与人之间的关系,人与文献、机构、地点、时间、事件、物体之间的关系。人(person)、地(place)、时(time)、事(event)、物体(physical objects)与文献资源(materials)间的关联关系可用如图4-1所示的抽象模型来表示,在此模型中,文献、人、地、时、事、物是从现实世界中存在的文献资源对象中抽象出来的概念,通过对概念属性和概念间关系的分析建立关联模型。

理清与人相关的概念、属性和关系后,用机器可理解的语言明确地定义,即是本体设计的过程。图4-2是上图人名规范库的人物本体模型,由概念(圆角矩形)和概念间的关系(有向线条)组成。人物本体设计的难点包括对人物的不同名称、人与人之间的关系、人的生平大事如出生、死亡、婚娶、任职经历的处理。

图4-1 人、地、时、事、物与文献资源间关联关系的抽象模型

图4-2 人名规范库的本体模型

对于人物的不同名称,除了规范名用foaf:name属性表示外,其他所有的名称均用“名称(shl:name)”类表示,名称的类型如字、号、谥号、笔名、昵称等用该类的属性(shl:name type)表示,“名称(shl:name)”类可重复使用,容纳一个人的所有名称,并可增加其他的属性来描述某一具体名称,如茅盾的笔名“小凡”初次使用的时间(1934年)和出处(《申报月刊》)。

人与人之间的关系较为多样,包括各种亲属关系社会关系,CBDB中描述人物关系的词汇有100多种,无法为每一种关系定义一种属性(property)。在上图的人物本体中,设计了一个“关系(relationship)”类,不同的人物关系作为这个类的属性“relation Type”的值来处理。对于一些比较重要和常见的人物关系,则复用RELATIONSHIP词表中的词汇,如朋友(rel:friend Of)、配偶(rel:spouseOf)、父母(rel:child Of)等关系。

对于生平大事设计了“事件(event)”类,包括时间、地点等属性,用于描述一般的事件。针对一些特殊事件,通过“事件”类的子类继承来实现,以任职经历为例,设计了“任职事件(official event)”类作为“事件”类的子类,并复用了PROV Ontology中的属性,包括“开始时间(prov:stared at time)”和“结束时间(prov:ended at time)”等,并自定义了“职衔(official position)”属性,用于描述某次任职中所担任的职衔,其取值可来自一个受控词表,如“清季职官表”。

2)数据采集、清洗与融合

数据采集的目的是根据文献元数据中的责任者信息(一般只有姓名和朝代),根据人物本体的结构,进行个人信息的补充和丰富。元数据中的责任者是上图人名规范库建设的主要依据,但一般只如实地著录姓名、朝代等简单信息,用于图书馆编目的人名规范档(也被称为“著者规范档”)也有关于人的基本信息,但与英美等国相比,我国图书馆的著者规范档建设较为薄弱。要满足用于数字人文的人名规范控制,需要人物百科、人名辞典、专业人物数据库的信息来补充。

数据清洗的主要目的是整合不同数据源中的数据,区分同名不同人,合并同人不同名。传统的图书馆主要依靠人工来完成这一过程,通过日积月累地建设著者规范档,将同名不同人的情况分为不同的规范词条,将同一人的不同名称归到一个规范词条中。而在大数据时代,这个过程无法仅仅依赖人工完成,需要借助一些自动化的工具和知识库,再辅以人工校对和判断。

例如古籍元数据中对《渔洋山人精华录》著者的著录存在着“【清】王士禛”和“【清】王士祯”两种情况,而从上图人名规范档中获取的信息:“王士祯(1634年9月17日—1711年6月26日),原名王士禛,字子真,一字贻上,号阮亭,又号渔洋山人,世称王渔洋,谥文简。”如果用人工判断,很容易判定这两个不同的人名实为同一人,如果借助自动化的手段,则需要先将网络百科中获取的这一段描述文字拆分,提取其中有价值的数据,如著述、籍贯、生卒年、原名、字、号等,再将不同来源的数据进行比对,计算其重合率,再判别是同一人还是不同的人。在这个例子中,可计算出“王士祯”和“王士禛”这两个名字有共同的作品《渔洋山人精华录》,通过调用上图历史纪年与公元纪年的转换服务得到“【清】”的时间范围为“1644—1911”,计算出上图人名规范档的生卒年“(1634年9月17日—1711年6月26日)”与元数据中的“【清】(1644—1911)”基本相符,且“王士禛”为“王士祯”的原名,其重合率符合“同人不同名”的判定,需要合并为以HTTP URI标识的、独一无二的人物实体。上图开发了一个数据清洗的工具来完成这项工作,对于无法判断的情况,导出列表交由人工判别。

数据融合的主要目的是将同一个人的不同来源的数据融合在一起,以互为补充。其主要难点在于对于人的同一属性,如果有不同来源的数据如何取舍的问题。上图人名规范库的原则是:对于客观唯一的属性如生卒年、籍贯、性别等,只保留一个唯一的值,事先考察并定义数据源的权威性和可靠性,择优取之;对于客观不唯一属性,如名称(中国古人往往有名、字、号各种称谓)、小传、任职经历、生平大事等,则都予以保留并注明其来源。

仍以“王士祯”为例,经过数据清洗的过程判定来自不同古籍元数据中的“【清】王士禛”和“【清】王士祯”,和来自上图人名规范档中的“王士祯”为同一人,合并为以HTTP URI标识的、独一无二的人物实体后,“王士祯”和“王士禛”作为该人物实体的不同属性值,“王士祯”作为规范名(foaf:name)属性的值,“王士禛”作为类型为“原名”的其他名称(shl:name),“渔洋山人”作为类型为“号”的其他名称(shl:name),“子真”作为类型为“字”的其他名称(shl:name)。来自上图人名规范档中的生卒年则可作为该人物实体的生卒年的属性值,该属性不可重复,而小传(brief bibliography)这个属性则可重复,可同时保存来自上图人名规范档的小传和来自国图规范档的小传。

3)数据服务

基于关联数据技术构建的人名规范库,在上图的数字人文平台中作为基础知识库,主要目的是为其他知识库提供基于互联网的数据服务,基于互联网的人名规范控制服务建立在这些数据服务的基础之上。以关联数据为支撑的数据服务技术也被称为关联数据消费技术,有多种方式,如DBPedia和FreeBase等大型的关联数据集均提供内容协商(content negotiation)、SPARQL Endpoint、Restful API、开发工具包等多种多样的数据消费方式。上图人名规范库主要提供以下数据服务方式,可为基于互联网的人名规范控制提供支持。

第一是基于HTTP URI的内容协商,即当客户端访问资源的HTTP URI时,可按照客户端的请求获得关于资源的RDF信息。在人名规范库中,每个单独的人物(individual)都有一个全网域唯一标识和定位的HTTP URI。在上图数字人文平台的文献知识库中,不同文献的责任者或内容中的人物都能以该人物在人名规范库中的HTTP URI来代替,而不仅仅是该人物的不同名称,当一个人以不同名称发表的不同著述(文献)都与同一个HTTP URI相关联,就可以实现从人物出发,链接到此人的所有文献。而文献本身也是一个有HTTP URI的实体,文献与人物之间的关联关系都是实体与实体之间的关系,而不是字串(题名)与字串(责任者名称)之间的关系。这样,从不同的文献通过HTTP URI链接相同的人就实现了基于互联网的规范控制,从相同的人通过HTTP URI链接到不同的文献就实现了基于互联网的书目控制。

图4-3的例子试图说明:从一个人物出发,可发现与这个人物相关的所有文献,而与文献类型无关。

第二是提供人的结构化的个人详细信息的开放数据接口,包括经过封装的Restful API和SPARQL Endpoint,这样的开放数据接口是一种轻量级的Web Service技术框架,基于HTTP协议提供开放应用程序接口供程序调用,一般表现为包含各种输入参数的URL。这样的接口不依赖于具体的系统和平台,而是依托互联网的技术架构,因而其服务对象不限于上图的文献知识库,也向其他图书馆和第三方机构或个人开放。这样的好处是,应用程序基于互联网调用人名规范库的数据接口,获取某个人的不同名称、生卒年、著述、小传等信息,这些信息以机器可读的RDF序列化格式编码,可以帮助确认具体应用中人物的识别和认定,以达到在具体的应用环境中实现规范控制的目的。

巴金为例,在Restful API中传入参数“巴金”:

http://data1.library.sh.cn/sg/persons/巴金

即可获得关于巴金的所有JSON-LD格式的RDF数据:(www.xing528.com)

4)创新效果

(1)提高图书馆资源的查全率查准率

缺乏人名规范控制的文献查询系统是通过字段值的字符匹配来命中检索结果的,对于人名检索来说,输入“茅盾”只能查到字段值中包含“茅盾”这个字符的结果,输入“沈雁冰”只能查到字段值中包含“沈雁冰”这个字符的结果。在有了人名规范控制后,当用户需要查询“茅盾”的所有作品时,系统会把“茅盾”和“沈雁冰”当作同一人,其检索结果应该是两者的并集。

上图的人名规范库实现了在文献知识库中支持基于人名规范控制的准确检索,这种检索是基于概念实体匹配的,而非字符匹配。如图4-4所示,在责任者检索框输入人物的名称,系统会通过人名规范库中提供的SPARQL Endpoint数据服务检索到对应的人物实体,得到其HTTP URI,再到文献知识库中检索责任者的值为该HTTP URI的书目实体。由于匹配的是HTTP URI,而不是字符串,因而无论输入人物的任何一个名称,如“茅盾”“沈雁冰”或“沈德鸿”,得到的HTTP URI都是茅盾这个人物实体的唯一HTTP URI,以同样的HTTP URI到文献知识库中匹配,得到的结果数量均一致,都是茅盾这个人物所有的文献。不仅实现了对一个作者的所有作品的书目控制,也是对查准率和查全率的改善。

图4-4 基于人名规范控制的检索

(2)图书馆资源间关联关系动态展示

近年来,上图开始从面向内容而非面向文献作为出发点,对历史文献已有的元数据和数字化全文进行重新组织。试图基于文献内容的内在关联进行知识组织,在数据的底层建立逻辑关联,让现有的异构文献资源库通过人、地、时、事、物互通互联。

基于图4-1的抽象模型,可以在图书馆的各种资源库、对象库之间建立关联关系。由于文献都以HTTP URI标识和定位,因而可以突破特定系统和局域网的限制。人作为作者创作的作品、私人档案、笔记,拍摄的照片,主演的电影视频片段,与文献是由哪个网域来进行保存或提供服务无关。从人出发,将同一著者有过贡献的所有文献聚集在一起,发现其他与之相关的人物、事件,或在时空中的行动轨迹和分布情况等。

在上图的家谱知识库和盛宣怀档案知识库中,通过“人名规范库”中人物的HTTP URI,实现了不同网域的两个知识库中文献的关联。如图4-5所示,当用户访问盛宣怀的HTTP URI时,系统返回一个HTML页面,在盛宣怀档案知识库中对信函和电报的发件人和收件人进行匹配,找出在某个时间段内与之有通信和通电关系的人物,以可视化的方式展示。同时,在访问盛宣怀的HTTP URI时,系统也会查找家谱知识库(图4-6)中与盛宣怀相关的家谱文献。

(3)助力社会网络关系分析

在盛宣怀档案知识库中,通过档案间的关联关系实现了人物间的社会网络关系的揭示。盛宣怀档案中数量最多的是与当时政界和商界要人之间的来往信函和电报,有11万余件,通信通电的时间、地点和次数可以在某种程度上反映人物的历史地位和人物之间的关联关系。图4-7展示了盛宣怀的通信通电关系,每一个圆点代表一个人,点击可查阅该人的基本个人信息,这些信息通过调用“人名规范库”的接口所得,有向线条代表两个人之间的通信通电情况,鼠标悬停在线条上方,系统会显示两人之间的通信通电次数和主要内容。这是一个全景图,可以发现其中与盛宣怀和盛康通信的人是最多的。

图4-5 通过人物联结家谱和档案

图4-6 家谱知识库中的亲属关系揭示

图4-7 盛宣怀档案中的人物通信通电关系

在中文古籍联合目录及循证平台中,著者、批校序跋者、收藏者都用人名规范库中的HTTP URI表示,对于同一个人,可以通过其唯一的URI将与之有关的所有文献按不同的责任方式聚集在一起,也可以分析与其他人物之间的合作关系。图4-8是黄丕烈合著或批校题跋关系的合作关系图。

图4-8 古籍中的人物合著、批校题跋关系揭示

5)创新经验

上图人名规范库试图整合图书馆的人名规范档和人文研究领域的人物资料库的长处,利用知识本体和关联数据技术,建立基于Web的数据基础设施,提供基于人物实体的人名规范控制服务和人物基本信息及研究资料的开放数据服务。目前已经构建了一个复用FOAF、Schema.org、Geo Names等开放术语词表和自定义属性的本体词表,用于人物基本信息及相关研究资料的结构化和内容组织,并融合了来自图书馆人名规范档、人名辞典、人物百科、人物资料库等不同数据源的84万余人的数据,为上图的家谱、手稿档案、古籍等文献知识库提供规范控制服务,同时以HTTP URI、Restful API、SPARQL Endpoint在互联网上为其他图书馆和第三方机构以及社会上的开发人员提供开放数据服务。未来将更深入地与人文研究领域的人物资料库项目合作,进一步丰富和扩充人物基本信息和研究资料,并与相关的数据集建立更多的关联,如职官表、历史地理信息系统等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈