赵思渊(1)
本文将以中国地方历史文献数据库(上海交通大学馆藏地方历史文献数据库)为例,说明地方历史文献数据库开发中元数据与分析工具的设计理念及其应用可能为人文研究带来的新拓展。笔者研究地方历史文献数据库结构,缘起于2012年以来参与开发“中国地方历史文献数据库(上海交通大学馆藏地方历史文献数据库)”。该数据库由上海交通大学历史系进行资料收集,并提出数据库建设构想,于2012年至2013年间由上海交大图书馆进行文献整理与数据加工(2),2013年以来由上海交通大学出版社进行数据库研发。该数据库主要收录上海交通大学2009年以来陆续收集的浙江、安徽、福建等地的地方历史文献,以及2007年以来曹树基教授收集、授权复制的“石仓文书”,总计近35万件。笔者在本文中讨论的数据库设计理念,正是为了开发和有效利用以上文献的数据库而提出的。
2007年以来,建设以民间文献、地方文献为主的历史文献数据库越来越为学界所关注与讨论。(3)迄今中国大陆所开发的历史文献数据库虽然数量已经不少,但多数是以资料储存、文本检索为主要功能的资料库,而较少考虑如何在数据库中帮助研究者分析文本。如陈尚君针对“中国基本古籍库”所提出的分类法合理性、版本选择、序跋信息缺失等,都代表了人文学者从研究利用角度对历史文献类数据库的期待。(4)
中文民间文献、地方文献数据库中,迄今文本分析、数据处理功能最为完备的是“台湾数字历史图书馆”(THDL),该数据库由项洁教授领导的台湾大学数位人文研究中心开发,主要收录台湾地区契约文书及台湾总督府档案。台湾大学数位人文研究中心并不拥有这些资料的版权,而是以授权复制或者录入为电子文本的形式建立这一数据库的知识产权。(5)
THDL中提供词频分析、上下手契关联分析、人物相关性分析等不同功能,还可以部分地实现契约空间分布的展示。THDL提出了数据库建设的新理念,那就是数据库的主要功能是为研究者提供研究环境并帮助研究者发现问题,而非仅仅是储存与检索。(6)
注重利用数据库发现并分析文本间的关系,帮助研究者理解文献的脉络,是近年来人文研究类数据库的发展趋向。THDL之外,2012年“中国历史人物传记数据库”(CDBD)也开发了新的人物关系分析工具。新版的CDBD中,可以分析某个人物的亲属关系、交友圈,并且将CDBD中的地名信息与“中国历史地理信息系统”(CHGIS)关联,直接在地图上显示。(7)
中文世界之外,近年也出现越来越多以文本分析为主要目的的数据库或分析工具。如Tara Andrews开发的拜占庭文书校勘(critical editing)工具。(8)此外,荷兰、比利时等国家在2013年集中讨论了“大数据”(big data)对历史学研究的影响,他们所开发的Biland数据库以及WAHSP数据库可以对17至18世纪欧洲的媒体资料进行词频分析、语言比较分析,为人文学者提供帮助。(9)
以上的这些新型人文学数据库开发中,有一个概念为所有研究者共同认可,那就是“数字人文”(digital humanity)。“数字人文”概念的意义在于由人文学研究者所提出的研究需要引导数据库、软件的开发,而非由人文学者选择既有的数据库与软件。“数字人文”概念在20世纪90年代兴起,逐渐取代70年代以来的“人文电算”(humanity computing)概念,成为一个增长迅速的交叉研究领域。项洁、王晓光等人已经先后梳理了数字人文概念在西方学界的发展及其在中文人文研究中的适用性。(10)笔者认为,数字人文研究还可细分为文献数据库、线上博物馆、网络文本(cyber born context)分析三个子领域。
事实上,西方数字人文研究更多的力量集中于对网络文本的分析。(11)互联网出现以来所积累的各类型线上数据,数量已经十分庞大,自然成为研究者们关注的焦点。而且这类研究直接与互联网经济相关,很多不同学科的学者都有兴趣介入。线上博物馆所关心的是如何将传统艺术领域的“展示”转变为在线的、可视化的、互动的。英国国王学院在这方面做了很多工作。
历史文献虽然留存数量庞大,但无论其体量或经济效益毕竟还不能与网络文本相比。因此,针对历史文献的数字人文研究并没有如网络文本那样活跃。不论在西方学界或中文学界,都已经有很多数字人文导向的历史文献数字化或数据分析研究。今后的历史文献数字化过程中,数字人文导向很可能是一个总趋势。
本文所讨论的地方历史文献主要指两类,一类留存于民间,产生于民间的日常生活,以手写本为主,并且未经过出版暨知识再整理的过程,也可称为民间历史文献或民间文书。(12)这类文献的具体内涵,笔者曾另文叙述。(13)另一类是由地方政府形成的各种档案。这里所说的“地方政府”主要指作为“亲民之官”的县级或次县级行政机构,明清时代也包含府(州、厅)级行政机构。
这类材料与一般意义上的“古籍”不同,古籍是经过有意识的书写与知识再组织之后形成的,而地方历史文献的文本形成之后没有经过一个知识再组织的过程,在经历了功能性使用的周期后就被以其使用中的形态保存了起来。这意味着,首先,这类文献的每一件都是独一无二的,几乎没有复本。其次,由于没有复本并且未经过知识再组织,这类文本并不形成版本,古籍则具有抽象概念的“书”与作为实体的“版本”之间的分离。(14)也就是说,整理地方历史文献时,版本整理、校勘不是主要工作。地方历史文献与古籍的另一个差异是,地方历史文献更多是碎片化的,单个文本的字数少;古籍整理中所注重的文本内关系如篇章顺序、自校等,在地方历史文献中虽然也存在,但不是非常显著。以明清史学界整理过程最久的徽州文书为例,或可启发我们理解地方历史文献的特性。
徽州文书特性归纳表(15)
周绍泉先生认为徽州文书具有真实性,因为徽州文书是从实际生活中直接形成的文件;他所说的典型性则是指利用徽州文书可以形成一个个具有代表性的个案研究。臼井佐知子和中岛乐章是日本徽州文书研究的代表学者。中岛乐章所说的“原始性”,其含义接近于周绍泉先生所述的真实性,特别强调徽州文书来自实际生活。另外,中岛乐章所说的“丰富性”是指“徽州学研究的最大优势在于,以徽州文书为中心,大量地保存了长时期族谱等文献史料和建筑等非文献史料。……有可能恢复包括民众文化、日常生活在内的一个地方社会的全貌”(16)。严桂夫和王国键是安徽省档案馆的学者,他们所说的“系统完整”,与刘伯山所述的“连续性”具有相近含义,均强调徽州文书的来源是可追溯的,文书之间的内部联系是有机的、可以复原的。
以上各位具有代表性的学者所提出的徽州文书特性,可以归纳为以下共同点:第一,所有学者都认为徽州文书存量之大、内容之丰富,是同时代其他文献群难以匹敌的。第二,相对于传世文献,徽州文书的特别之处是其保存了原始记录,同时具有完整的、有机的文献内部联系。这种差异使得地方历史文献必然要建立与一般古籍不同的整理方法。就数据库建设而言,以地方历史文献为主要内容的数据库与古籍文献类数据库相比,也需要不同的设计思想。古籍数据库选择收入数据库文献时,通常根据每一本书与数据库主题的相关性或者对于某一研究领域的重要性。此外还要考虑选择一本书的何种版本,其获取的难度,以及是否能够反映书的原貌等。
地方历史文献的单件当然也具有研究价值。以契约文书为例,傅衣凌、章有义、杨国祯等前辈学者都曾依据一件件独立的、经过选择的契约解释明清乡村的地权结构。但随着研究的深入,对单件文书的分析、考释常常不能满足研究的需要,即使在傅衣凌先生开创契约文书研究的时期,当他对契约文书内容和类型进行了解释和考释之后,也转入了以时间、地域等关系对多件契约做综合分析的研究。可以说,地方历史文献碎片化的形态决定了其每一个单件的研究价值通常要置于一个整体中才能被发现。
这也就决定了建设地方历史文献数据库,不能以件为单位判断文献的研究价值或作为选择文献的标准,而应以文献群作为地方历史文献数据库收录文献的基本单位。这里所说的“文献群”,是指一组具有内在逻辑关系的文献所组成的整体,特别是那些由同一个来源的文献所形成的整体,如出自同一个家族的全部文书或同属一个案卷(record)的全部档案。凡是属于同一个文献群的文献,即使是在研究者看来可能并无价值的残件,都应当全部收录。在《石仓契约》的整理与研究中,我们将以上方法归纳为“有机”的研究方法。(17)
这样的整理方法与档案学中的全宗原则、来源原则也有相通之处。全宗原则和来源原则是19、20世纪之交档案学逐渐发展出的档案管理原理。16至18世纪的欧洲国家其档案管理本来依据“事由原则”,即按照档案内容对档案进行分类保管。19世纪之后,王室档案馆与行政机关文件登记室逐渐转变为国家档案馆,并且从封闭保密转为开放查阅,档案来源与档案查阅需求也随之多元化,因而本来封闭的、依照逻辑进行主题分类的档案管理办法不再能满足需要。有的档案可以归入多个分类,有的档案不能按照现有分类归档,都给档案管理造成困难。
1841年,法国内政部第14号通令颁布省档案馆条例,规定:“来源于一个团体、一个机构、一个家庭或者一个人的所有文件都要组成全宗;档案管理人员不得把全宗拆散或将不同的全宗混在一起。”(18)这一条例提出了“尊重全宗原则”(the principle of respect pour les fonds),成为“来源原则”“全宗原则”之滥觞。
继法国之后,德国国家档案馆于1881年发布《国家机密档案馆档案整理条例》,要求“国家机密档案馆内文件按其组成部分的来源进行整理”,“每一机关一旦开始移交文件,就要立即指定一部分库房专放该机关的文件,在这部分库房内,官方文件要保持它在有关机关活动过程中获得的顺序和标志”,也即“登记室原则”。这一原则之后发展为“来源原则”。(19)
“来源”(provenance)在档案学中指“向文件中心或档案馆移交文件之前,在事务活动过程中形成、保管和/或利用文件的组织或个人”。在此基础上,来自一个组织或个人的全部档案应当作为一个单独的整体保存,不同来源的档案不能混合,这就是现代档案学中通行的“来源原则”。(20)根据来源原则,档案保管必须保持档案的“来源联系”。(21)也就是说,应当以文献产生时的来源单位作为文献保管的基本单位,从而避免打破文献之间既有的有机联系。在整理文献时,应当区别针对文献实体的分类法和文献内容的分类法(22),通过两套分类法的综合编目达到对文献的整体使用。
近年民间文书整理中所提出的“归户”概念,与来源原则有相似之处。“归户”是一个来自明清赋役制度的概念,意指赋役过割至地权买入人户,如清初陆陇其总结地方官的为政经验,认为:“夫有田则有赋,顽猾抵官者,诚所当治,而善良乐输者,要当与之覆议。其大要,则于移割宜加意焉。产去税存,不可不察,民又以出业报者,便当关会受业之家,割税归户,然后却、与、除、退,庶几无泛追、无滥罚、无推摊抵捱之弊。”(23)“受业之家”即地权买入方应当“割税归户”。这里的“归户”是一个动词,为“归入买入人户”之意。明清之际的赋役制度改革中,“归户”是一个总体性的原则。(24)
清代徽州文书中“归户”也可作为名词使用。徽州文书中有一类被称为“归户清册”的文献,通常是一个纳税户所有应纳税粮之土地的登记,与陆陇其所称“归户”涵义相通。根据目前学界对清代赋役制度的理解,这些纳税户通常是一些虚拟户名,其背后可以是个人、家庭、宗族、会社或其他社会团体。(25)这些“户”是纳税单位,同时也是经济活动的单位,亦是产生契约文书、账簿等民间文书的基本单位。
整理、研究民间文书的学术史中,刘伯山较早将“归户”作为一项原则,认为徽州文书具有归户性。(26)但在他的编辑和研究中,并未说明“归户”的含义,只是一般性地将同属一个家族的文书称为“归户文书”。正如档案学对“来源”的理解越趋复杂,随着文献收集越来越丰富,作为文献收集、整理基本单位的“户”“归户”也应当具有更丰富的内涵。事实上,早在1962年严中平先生就已经提出一项针对收集工作的建议,希望能够“完整地”收集徽州文书。(27)我们认为严中平先生所说的“完整”已经包含了“归户”的整理原则。
“归户”如同地方历史文献的“全宗”,正如档案保管从事由分类转向来源分类,地方历史文献的保管、整理也必将从内容、年代等原则转向归户原则。(28)因为这些文献正是以“户”为单位产生的,以“户”为单位进行保管、分类,最能够保持文献自身内部的有机联系。同时,“户”的所指也应更加丰富,举凡家户、家族、宗族、会社、寺庙等都可成为一“户”。
因此,在设计《中国地方历史文献数据库》时,我们使用“归户”与“批次”两个概念来反映文献群的存在状态。“批次”是收录于《中国地方历史文献数据库》中每一个文献群的编号,这个编号是根据每个文献群入藏的时间制作的,文献群中的每一件文献则在批次号的基础上流水编号。批次号是对文献群物理保存形态的反映。
文献数字化事实上包含两部分内容:数字化(digitalization)与数据化(datalization)。前者是将文献的物理形态转化为电子形态,予以储存、使用;后者则是将电子文本转化为可分析的数据,这些数据将在进一步的研究中发挥巨大效用。这里所说的“可分析”包含定量与定性的分析方法。定量分析针对文献中包含的数字信息如物价、产量,以及文献本身所呈现出的数量特征如文献数量、文献涉及人物数量等。此外,应用词频分析、关系网络分析等方法则可对文本做定性的研究。
上述研究方法在历史学中并不鲜见,但数据库首先扩展了可以应用上述方法的文献数量规模,其次不需由史学研究者开发分析工具,降低了使用难度。以“中国地方历史文献数据库”为例,我们在数据库中设计了两种检索方式以及两组检得文献分析工具:一种检索方法是输入任意词在整个数据库中检索,或者在题名、事主、归户、事由、分类中用任意词检索,也就是通常文献数据库都具备的普通检索与高级检索。另一种检索方式是多维分类导航,即利用时间、地域、归户、分类法等方法交叉浏览、检索,寻找文献。数据库所提供的分析工具可以统计检得文献的地域分布、年代分布、类型分布以及事主分布。此外,对于任意一件检得文献,数据库还可显示属于同一批次、同一地域、同一归户或同一事主的相关文献。
建立以上检索与分析工具的意义是为研究者提供更好的研究环境。通过检索找到资料库中的资料,是研究者使用数据库的最基本需求,但是历史学研究不仅需要找到资料,更重要的是发现资料间的关系。历史学研究中,文本记录中的时间、空间、人物无疑是最重要的三组关系,我们试图在数据库中提供相应的功能帮助研究者揭示资料群在这三个方面的关联性。依据时间检索、检得资料时间分布统计正是为发现不同时间形成的资料间的关系而设计的。地域、归户等则是以不同形式分析、呈现资料的空间分布。文本中所有的人物信息都被登记为“事主”。
以上功能设计还有可能进一步帮助研究者发现新的资料或新的研究议题。以我们最近的一项研究为例,本来的研究计划中,只是准备分析清代徽州契约中代笔人与买卖双方的亲属关系,在利用“事主”相关功能检索一批文书中代笔人的身份时,发现在一批契约中的“代笔人江振玉”同时还是当地编制归户册的册书,从而可以由此讨论清代乡村中同时担任半职业代笔与税收职役的人群。(29)
上述检索与分析功能,是通过相应的元数据(metadata)结构与检索算法实现的。元数据是可以被计算机识别的文献描述,制作元数据也就是将文献资料转化为可被检索、分析的数据的过程,它比将历史资料从物理形态转化为电子形态的数字化更进了一步。如何设计元数据结构,很大程度上决定了文献资料可以被如何检索、分析。
“中国地方历史文献数据库”所使用的元数据结构由17项元素组成。目前,我们已经按照以上元数据标准编目了13.5万条。除数据库外,上海交通大学馆藏其他地方历史文献也按照这一元数据格式编目。这一元数据格式的理论依据及论证过程已有专文阐述(30),这里仅说明整个元数据的基本结构及其在应用中的涵义。
我们所使用的元数据格式试图描述三类元素:其一是识别每一件文献并说明文献的性质,如文献编号、资源类型。其二是对文献内容的描述,地方历史文献的内容千差万别,设计能够适用于全部文献的元数据元素是非常困难的。因此元数据的设计必须具有高度的弹性,能够涵纳多数文献,如文献名称、涉及人名(事主)、文献归户、日期等,是几乎从所有文献中都能找到的。但对存量特别多的文献,也需要一些专门的设计。从目前粗略的统计看,契约、账簿在文献收藏中所占比例为60%左右,因此也涉及了如标的、金额等与此类材料尤为相关的元素。
设计了针对特定文献的元数据格式后,从资料中提取元数据可以采用人工与半自动标记(semi-automate tag)甚至全自动的方式。上海交通大学目前采取的是人工编目的方式,但是社会学界及数字人文领域已有一些可应用于中文文献的半自动标记工具(31),可以预见,这将成为今后的一个趋势。半自动标记或自动提取都要依靠制作全文档(full-text archives)。目前,中文手写文献似乎还没有很好的光学文字识别(Optical Character Recognition,OCR)手段,因此制作全文档只能人工录入。在此前的《石仓契约》等出版文献中,我们曾经采取的录入标准是“原字仿真”,但在以数据库应用为目标的情况下,则应全部以GB32标准的繁体字录入。因为全文录入后,制作元数据时必然采用标准繁体字,才能达到通用检索的目的。并且批量录入时,“原字仿真”所需的培训、校对工作量都太过巨大,特别是一些异体字、俗字,究竟如何处理算作“仿真”也是整理者始终面临的难题(32),且需要耗费大量精力用于自造字库。
此外,从研究者直接利用全文档的角度考虑,“原字仿真”也并非特别有效的方式,因为使用者必然要用标准汉字进行检索,如果是对字体、俗字等问题感兴趣的研究者,数据库提供录文与图档的对照一样可以满足需求。(www.xing528.com)
数字人文是最近20年来新兴的交叉学科概念,对历史学研究而言,引入这一概念的意义是促进更多分析工具应用于文献整理与解读,THDL与CDBD数据库已经在这方面做出有益的尝试。与古籍不同,地方历史文献未经过知识重组,也相对碎片化,所以更应注重文献间的关联性。“中国地方历史文献数据库”针对文献特性设定相应的元数据结构,从而可以在数据库前台提供多种维度交叉检索以及数种基本数据的统计。我们不仅期望这些功能设计可以便利研究者寻找史料,更期望可以帮助研究者发现新的研究议题。
(1) 作者单位为上海交通大学。
(2) 李芳、陈进、王昕:《上海交通大学新藏地方历史文献的数字化建设规划与实践》,《大学图书馆学报》2015年第2期。
(3) 赵思渊、汤萌:《上海交通大学新藏地方历史文献的分类法及其依据》,《上海交通大学学报(哲学社会科学版)》2014年第3期。
(4) 陈尚君:《〈中国基本古籍库〉初感受》,《东方早报•上海书评》2009年8月9日。
(5) 参见项洁、陈诗沛、杜协昌:《台湾古契书全文资料库的建置》,第三届台湾古文书与历史研究学术研讨会,逢甲大学历史与文物管理研究所2009年3月14日。
(6) 涂丰恩、杜协昌等:《当资讯科技遇到史料——台湾历史数位图书馆中的未解问题》,载项洁:《数位人文研究的新视野:基础与想象》,台湾大学出版中心2011年版,第21—44页;项洁、翁稷安:《数位人文和历史研究》,载《数位人文在历史学研究的应用》,台湾大学出版中心2011年版,第11—20页。
(7) 参见http://isites.harvard.edu/icb。
(8) Tara Andrews,The third way:philology and critical edition in the data age,working paper,in Lectio Round Table“Digital or critical/digital and critical?”,Leuven,2011.
(9) Joris van Eijnatten,Toine Pieters,Jaap Verheul:Big Data for Global History:The Transformative Promise of Digital Humanities,Low Countries Historical Review,2013,128(4):55-77.
(10) 项洁、陈丽华:《数位人文——学科对话与融合的新领域》,项洁:《数位人文研究与技艺》,台湾大学出版中心2014年版,第9—23页;王晓光:《“数字人文”的产生、发展与前沿》,全国高校社会科学科研管理研究会:《方法创新与哲学社会科学发展》,武汉大学出版社2010年版。
(11) David M.Berry,ed. Understanding Digital Humanities, Hampshire & New York:Palgrave Macmillan,2012,p4.
(12) 郑振满:《民间历史文献与民间文化传承研究》,《东南学术》2004年第1期;梁勇、郑振满、郑莉:《新史料与新史学——郑振满教授访谈》,《学术月刊》2012年第4期。
(13) 赵思渊、汤萌:《上海交通大学新藏地方历史文献的分类法及其依据》,《上海交通大学学报(哲学社会科学版)》2014年第3期。
(14) 乔秀岩:《古籍整理的理论与实践》,《版本目录学研究》(第1辑),国家图书馆出版社2009年版,第7页。
(15) 资料来源:周绍泉:《徽州文书与徽学》,《历史研究》2000年第1期;[日]臼井佐知子:《徽州文书と徽州研究》,[日]載森正夫:《明清時代史の基本問題》,汲古書院1997年版;[日]中岛乐章:《明代乡村纠纷与秩序:以徽州文书为中心》,郭万平、高飞译,江苏人民出版社2010年版;严桂夫、王国键:《徽州文书档案的特点与价值》,《档案学研究》2001年第1期;刘伯山:《徽州文书的遗存及特点》,《历史档案》2004年第1期。
(16) [日]中岛乐章:《明代乡村纠纷与秩序:以徽州文书为中心》,郭万平、高飞译,江苏人民出版社2010年版,第43页。
(17) 蒋勤:《清代石仓文书的“在地”与“有机”分析》,《上海交通大学学报(哲学社会科学版)》2014年第3期。
(18) 冯惠玲:《论档案整理理论的演变与发展》,吴宝康:《当代中国档案学论》,档案出版社1988年版;刘金芳:《论来源原则的历史演变》,《浙江档案》2007年第4期。
(19) 黄霄羽:《魂系历史主义——西方档案学支柱理论发展研究》,中国人民大学出版社2006年版,第35页。
(20) 黄霄羽:《魂系历史主义——西方档案学支柱理论发展研究》,中国人民大学出版社2006年版,第31—32页。
(21) 冯惠玲、何嘉荪:《全宗理论的实质——全宗理论新探之二》,《档案学通讯》1988年第5期。
(22) 冯惠玲、李宪:《中国档案分类法的理论与使用方法》,《山西档案》1989年第2期。
(23) 陆陇其:《莅政摘要》(卷上)第12页,《官箴书集成》编纂委员会:《官箴书集成》第2册,黄山书社1997年版,第628页。
(24) 刘志伟:《在国家与社会之间:明清广东地区里甲赋役制度与乡村社会》,中国人民大学出版社2010年版,第201页。
(25) 刘志伟:《在国家与社会之间:明清广东地区里甲赋役制度与乡村社会》,中国人民大学出版社2010年版,第197—204页。
(26) 刘伯山:《徽州文书的遗存及特点》,《历史档案》2004年第1期。
(27) 《一九六二年二月六日严中平致中央档案馆函》,安徽省档案馆藏,转引自严桂夫、王国键:《徽州文书档案》,安徽人民出版社2005年版,第11页。
(28) 民间历史文献整理方法演进的学术史,参见杨培娜、申斌:《走向民间历史文献学——20世纪民间文献搜集整理方法的演进历程》,《中山大学学报(社会科学版)》2014年第5期;张侃:《20世纪以来民间文献研究的学理述略》,第七届民间历史文献论坛,厦门大学2015年。
(29) 赵思渊:《19世纪徽州乡村的土地市场、信用机制与关系网络》,《近代史研究》2015年第3期。
(30) 王昕、李芳、张洁:《地方历史文献数字化的关键问题研究》(待刊);张洁、李芳、汤萌:《契约文书描述性元数据规范设计与应用》(待刊)。
(31) 何浩洋:《MARKUS:中文古籍文本半自动标记平台》,www.academia.edu。
(32) 张涌泉:《敦煌写本文献学》,甘肃教育出版社2013年版,第733页。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。