首页 理论教育 图情大数据:人文研究的典型案例

图情大数据:人文研究的典型案例

时间:2023-08-08 理论教育 版权反馈
【摘要】:CBDB是一个数据不断更新和丰富的、开放的大型专题数据集,项目组仍在陆续从不同的人物传记资料相关的史料中加工提取数据,在为研究者提供研究数据支持的同时也支持以众包的方式允许作为用户的研究者修改、添加数据。近年来,围绕CBDB,有大量的研究论文发表、工具平台的开发,使之成为该领域以数据驱动研究的基础设施。

图情大数据:人文研究的典型案例

1)中国历代人物传记资料库(CBDB)

中国历代人物传记资料库是在线的关系型数据库,源于Robert M.Hartwell教授于20世纪90年代建成并赠送给哈佛燕京学社的唐宋人物数据库,经过数代学者的积累,形成如今自唐至清代42万余历史人物的传记资料数据库。目前CBDB的开发工作由哈佛大学费正清中国研究中心、中研院历史语言研究所及北京大学中国古代史研究中心三方合作进行,其目标在于系统性地收集中国历史上所有重要的传记资料,并将其内容数据化后供研究使用。截至2018年9月,该数据库共收录约422 600人的传记资料,这些人物主要出自7世纪至19世纪,目前仍在增录更多唐代和明清的人物传记资料。CBDB除了可为研究者提供人物传记资料的参考外,还可以支持基于大规模数据的统计分析、空间分析和社会网络关系分析。

CBDB的数据来源多样,多源自系统、完备的材料或研究专著,如传记、年表、索引、缙绅录、地方志、墓志等,要求行文有清晰、简单的格式,容易数字化,经过扫描并OCR识别,利用算法、机器学习等技术对人名、别名、官名进行消歧,将非结构化、半结构化的文本转换成结构化的关系数据库格式。除了从各种文本化的史料中提取人物名称、生卒年、籍贯、任职履历、亲属关系社会关系等数据点之外,还整合了历史地理信息系统(CHGIS)中的历史地名数据。这些数据点大多包含时间信息,因而可以结合空间信息进行时空分析。丰富的亲属关系和社会关系便于支持大规模的社会网络关系分析,如苏轼的社会关系数据有700余条,整个数据库中的其他著名历史人物的数据也颇为丰富,尤其是唐宋两朝的人物。

CBDB是一个数据不断更新和丰富的、开放的大型专题数据集,项目组仍在陆续从不同的人物传记资料相关的史料中加工提取数据,在为研究者提供研究数据支持的同时也支持以众包的方式允许作为用户的研究者修改、添加数据。CBDB的开放性体现在,允许整库下载数据到本地,支持数据的导出和数据应用程序接口(API),研究者们获得数据后,可使用其中与某研究课题相关的部分数据,结合各种数据统计、分析、可视化工具操控数据,解释旧问题、发现新问题。CBDB的开放性还体现在与汉学领域相关的其他项目积极合作,如为文本标记工具Markus提供知识库,也与大量来自不同领域、带着特定研究课题的个人研究者密切合作,为研究者提供数据支撑的同时,研究者也将自己在研究过程中收集的资料和数据、解决问题的方法和思路、基于数据开发的工具贡献到CBDB项目中。近年来,围绕CBDB,有大量的研究论文发表、工具平台的开发,使之成为该领域以数据驱动研究的基础设施。

2)威尼斯时间机器

威尼斯时间机器(Venice Time Machine)项目是一个从威尼斯上千年的历史文献资料(如地图、专著、手稿、档案乐谱等)中提取数据,重现威尼斯历史的文化记忆项目,由洛桑联邦理工学院(EPFL)数字人文科学实验室主任Frédéric Kaplan博士领衔,有超过20个文化记忆机构参与。该项目的目的是将威尼斯多年的历史以动态的数字化形式传承下来,再现这座古城辉煌的共和国时代风貌。不仅能够为世界各地的学者揭露威尼斯隐藏的历史,还能使研究人员能够搜索和交叉引用参考文献

该项目始于2012年,在投资规模、参与机构、资源种类和数量,尤其是新技术的应用上,将文化记忆类项目推向了一个全新的阶段。该项目的资源类型和来源多样化,包括威尼斯国家档案馆等数十个文化记忆机构的行政文件,如死亡登记册、医疗记录、公证记录、地图和建筑图案、专利注册记录,涉及人口、店铺、港口交通、贸易等主题,这些档案大多以拉丁文或威尼斯方言撰写,有些从来没有被现代历史学家阅读过。在新技术的应用上,用最先进的扫描设备将海量多样的档案资源数字化,并将数字化的图像转换为可搜索和便于阅读的文本,尤其是用基于机器学习的命名实体识别(name entity recognition,NER)技术识别图像和文本中的人、地、时、事、物等实体,并用关联数据技术构建和表达各类实体间的关联关系,将资源描述的粒度从文献细化到文献中蕴含的内容,将供人阅读的数字化文献转换成机器可理解的数据,并和其他更多非常规数据来源一起,以更形象的形式,比如绘画和旅行者日志的形式呈现出来。还可利用数据可视化技术、VR/AR技术重现上千年历史的宏观概貌,又可深入具体的细节一探究竟。

威尼斯时间机器项目的流程和方法如图6-1所示。(www.xing528.com)

图6-1 威尼斯时间机器项目的流程和方法

3)古籍循证

随着大量古籍的数字化和现代信息技术的进步,以古籍目录和古籍文献为研究证据的各类人文、历史、社会科学研究领域将逐渐改变依赖个人经验和个人搜集整理资料的研究模式,而更多地依靠大规模文献资料中蕴含的数据、事实和知识,以及基于这些数据、事实和知识的统计、分析和推理。古籍目录和古籍文献的数据化,将促进研究人员在研究方法和研究模式上的更新和变革。然而各机构建设的古籍数据库只是对现存古籍目录的揭示,在以古籍为资料和证据的研究工作中,需要经常参照各种各样关于古籍的信息和知识。而寻求这些信息和知识的线索不仅存在于当前各大图书馆、档案馆、博物馆等公共文化记忆机构的古籍目录和私人收藏者手中,还被记录在历代的目录学典籍中。那些现存的古籍尚可被今人阅读,但大量已经散佚的古籍却只在前人的目录学典籍中留下前人的辑录、提要和评述。如果能将这些材料收集起来,以一种机器可处理的方式存储于计算机系统中,客观地留下文献中反映出来的某种古籍的流藏历史、版本变化、分类发展,与当前各级各类图书馆、博物馆、档案馆中存续的古籍相互印证,挖掘出大量善本、珍本、孤本之间的丰富联系。这样的思想与发端于医学领域的“循证实践”不谋而合。上海图书馆“中文古籍联合目录及循证平台”(简称“上图古籍平台”)的建设,正是顺应这一趋势的尝试。

上图古籍平台借鉴了“循证实践(evidence-based practise)”的思想,定义了“古籍循证”的概念。通过收集并融合古代的史志目录、官修目录、藏书楼目录、私家目录和现代的大型联合目录、机构的馆藏目录,建立古籍的物理形态、内容、历史源流、版本关联等方面的证据链,试图实现基于互联网的、全球范围的、超越时间空间限制的古籍书目控制,辅助传统研究领域如版本学研究、校勘学研究、分类学研究,以及人文历史等特定领域研究学者,利用大数据技术的大规模、分布式存储和计算能力,实现远远超出个人和单个机构能力的大规模、自动化的数据统计、分析、推理和机器学习。

截至2019年3月,上图古籍平台融合了包括《汉书艺文志》《崇文总目》《四库全书总目提要》《铁琴铜剑楼藏书目录》《贩书偶记》等15种古代目录,以及《中国古籍善本书目》《中国古籍总目》2种大型现代联合目录,上海图书馆、加州大学柏克莱分校东亚图书馆、澳门大学图书馆、哈佛大学燕京图书馆4家馆藏机构的古籍馆藏目录的数据,目的是将同一种古籍的相关数据聚集在一起,无论这一古籍来自古代目录、现代联合目录还是机构馆藏目录,同时建立作者、刻工、收藏家、藏印、避讳字等知识库,将不同的古籍文献关联起来。目前,平台提供1 400余家机构馆藏目录的联合查询,为4家机构提供定制化的单馆馆藏检索站点,为15种古籍目录提供全文检索等功能。

考虑到联合目录的数据源于《中国古籍善本书目》《中国古籍总目》这两种静态的印刷书籍,有所滞后,无法实时地反映所涉及的1 400余家馆藏机构当前收藏情况,2017年底到2018年初,上图古籍平台又开发了机构管理功能,允许机构管理员通过修改、上传等方式更新馆藏数据,同时为每个机构提供定制化的馆藏网站,可由管理员配置网站的外观及数据的查询、排序和展示方式等。这项功能完成后,除了上图和伯克莱东亚图书馆外,还吸纳了澳门大学图书馆和哈佛大学燕京图书馆加盟,目前在平台上可查阅4家机构的古籍馆藏目录和全文扫描影像。近期,平台实现了用IIIF来实现全文扫描影像的浏览,并正在探索新的索引机制来提升网站的性能。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈