首页 理论教育 在中国史定量研究中的大数据古籍文本可视化分析与挖掘

在中国史定量研究中的大数据古籍文本可视化分析与挖掘

时间:2023-07-05 理论教育 版权反馈
【摘要】:大数据研究思维则不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。中国古籍文献在语言学、历史文献学及历史地理学等人文社会学科研究中占有重要地位。但目前的数字化古籍文献的利用模式几乎不能满足定量分析的需要,特别是古籍文献的内容更是需要通过人工来进行分析,拥有庞大的古籍数据却不能充分发挥大数据的研究理念,使得规模庞大的古籍文本数据与深度利用率低已成为突出矛盾。

在中国史定量研究中的大数据古籍文本可视化分析与挖掘

欧阳剑(1)

随着大数据时代的到来,依靠大规模系统历史资料构建量化数据库并进行定量分析成为一种新的、行之有效的研究方法,(2)通过统计分析从大规模数据中挖掘新事实、产生新认识,(3)能够发现靠传统文献阅读无法发现的、隐藏在历史文献中的史实与现象。20世纪中期以后,计算机辅助下的定量分析逐渐成为国际学术研究中的一股新风潮,许多大型量化数据库得以构建并服务于学界,(4)现在学者们认为许多不具备数字特征的事物或事件同样可进行定量研究,只要所研究的事物或事件存在特征,这些特征就可以量化,运用归纳性统计方法,运用多变量的统计方法作数量分析、聚类分析回归分析等。人文学科中定量研究靠单纯的技术是无法完成的,必须将计算结果或新发现放回历史结构或背景中去才能得出系统和合理的结论,从而不仅能通过数据挖掘新发现,更能解释和理解这些发现,进而改变我们固有的历史和社会学理论与认知。在历史分析方面,计量史学是历史学研究的一种重要方法,运用自然科学中数学方法对历史资料进行定量分析使史学趋于精确,计量史学在经济史、政治史、社会史、人口史等领域研究中取得了很多的研究成果,发挥着巨大的作用。

大数据给了人文学科研究全新思维,人文学科研究往往会预先设定研究问题或理论模型和假设,然后去寻找相关材料,但部分研究因为材料收集有较强的主观性和选择性,往往倾向重复确认“已知”,忽略发现“未知”,很难促进对社会事物整体规律统一且有效的认知。大数据研究思维则不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。埃雷兹•艾登(Erez Aiden)等在《可视化未来:数据透视下的人文大趋势》(UNCHARTED:Big Data as a Lens on Human Culture)(5)一书中以“谷歌图书”项目为背景,通过500多万本电子书讲述了大数据在研究历史文化人类语言、社会名望、群体记忆等方面的重要作用,大数据对社会科学的变革意义得到凸显,洞穿科学与人文之美。

大数据时代的各种思潮和视角在不断涌现,大数据作为一种全新的资料,以其超越传统调查数据的样本量和时间跨度,为社会科学经典理论的验证和拓展提供了更多研究空间。(6)传统人文学科的实证研究强调在理论的前提下建立假设,大数据时代重在发现知识与现象,在没有理论假设的前提下去预知,从海量的数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示事物现象与发展规律。(7)大规模的古籍文献扩大了人文学科资料的范围,提供了人文学科研究新的研究空间,提供了新的研究可能。

中国古籍文献在语言学、历史文献学及历史地理学等人文社会学科研究中占有重要地位。目前,我国古籍文献的数字化已经比较成熟,而且具有一定的规模,普遍实现了文字层面的数字化。以《文渊阁四库全书》《四部丛刊》《中国基本古籍库》《国学宝典》《中国数字方志库》等为代表的古籍数字化文本大量出现,为人文社科的研究提供了便利。

古籍文献的统计分析是数字人文研究对古籍深度利用的基本需求,(8)定量分析则是数字人文研究的一种主要研究方式与方法。与传统的定性分析不同,定量分析是依据统计数据,建立数学模型,并用数学模型计算出分析对象的各项指标及其数值的一种方法。因此,定量分析的应用使人文学科研究更趋于科学化,人文学科的研究者对定量分析的需求日趋强烈,研究者不再满足检索结果的简单罗列,更需要从计量学的角度对符合一定条件的古籍文献从作者、文献来源、体裁及年代等多角度进行统计分析。近年来,学者在古代诗、词、古代文学及中国史等研究方面采用定量研究的趋势更为明显,例如,武汉大学著名词学研究者王兆鹏教授把文献计量的方法成功地引入词学研究中,(9)李伯重教授在史学研究大量地采用量化方法,(10)胡俊峰、俞士汶利用统计分析的方法定义了唐宋诗中词汇语义的统计表达。(11)20世纪90年代中期,北京大学开发的古诗研究系统就设置了统计分析功能,(12)定量方法的使用使得人文学科的研究成果增加了定量的特征,增强了人文科学中的科学属性。

但目前的数字化古籍文献的利用模式几乎不能满足定量分析的需要,特别是古籍文献的内容更是需要通过人工来进行分析,拥有庞大的古籍数据却不能充分发挥大数据的研究理念,使得规模庞大的古籍文本数据与深度利用率低已成为突出矛盾。而且,国内对古籍文本的利用与开发研究基本上仍然采用传统的研究方法与模式,缺乏新的人文研究范式及理念,也制约了以古籍文献为基础的语言学、历史文献学及历史地理学等人文社会学科研究的开展,使得一些研究以目前的研究方式及工具无法展开,限制了新研究领域的发展。

此外,多元化、多角度的对比分析及古籍内容挖掘也是数字人文研究所急需的。科学研究可以从多个角度进行对比分析,发现新的问题与现象,寻找隐藏在数据中的模式、趋势和相关性。对于作为史料来源的古籍文献来说,通过文献记载的史实对比,可以考察文献原始出处及后续的变异。在哲学上,空间和时间的依存关系反映的是事物的演化秩序,时间及空间上的比较分析法是常用的分析方法,而从时间角度和空间角度对事物的发展及变化进行了立体式的描述,将是古籍文献在深度利用方面的重要方式。而古籍内容挖掘更是人文学科领域深度分析的主要方式,利用文本挖掘技术可以对历史事件的发展等做出宏观的描述,(13)更能准确地还原历史真相,对古籍文献中错综复杂人物关系建立关联,对历史人物的社会评价做出客观的判断,对语言、社会及地理等现象进行有效的解释。同时,古籍内容挖掘也是古籍数字化知识构建的基础。

目前,随着古籍数字化的进一步发展,更多的学者开始认识到古籍数字化带给我们的不仅仅是海量的古籍文献存储,而是“数字化”为技术与人文的合流构筑了新平台,一个技术逻辑和人文逻辑相耦合的“数字人文”的出现值得期待。但传统的古籍开发与应用模式难以适应人文学科的数字人文研究的需要,急需研究辅助工具与研究方式的创新与开发,引入大规模定量计算分析方法,构建可持续完善和丰富的数据集和分析工具,充分利用新的信息技术、中文信息处理技术及跨学科方法来对古籍进行深层次的分析与挖掘,对数字化古籍文献所蕴涵的多重信息进行多角度的揭示和重组。深度的开发使古籍文献不再是平面的、孤立的资料,而是构成一个立体的文化学术知识库。

金观涛与刘青峰的《观念史研究:中国现代重要政治术语的形成》,以十年之功,建立起一个庞大的“中国近现代思想史专业数据库”(1830—1930)。通过核心关键词在历史文献中的统计数据,可找到一份中国重要政治术语形成时期的观念史地图,从而跳出传统史学研究被诟病的框架——研究观念起源往往囿于思辨而无法实证。计量史学遭遇的是方法论难题,建设大规模数据集则可能是逾越“大历史观”、整体史研究与繁芜历史资料间鸿沟的有效办法。然而,选取哪些文献才算准确?多少总量才足够大?如何将这类历史资料进行合理有效的编码和数据集化,并通过实证分析更好地帮助我们了解社会发展的历史经验和对当下的启示?这些都是学界需要加强探索和讨论的关键技术课题。

按照马创新、曲维光、陈小荷所言古籍数字化开发的两个层次来看(14),显然,以存档和检索为目的的古籍文献表层数字化已取得丰硕成果,而古籍文本可视化分析与挖掘属于深层次的开发,深层次的古籍文献开发主要是古籍知识元标注及知识网络构建、古籍文献之间的关联、文本内容分析及挖掘等。就目前数字化古籍文献的开发及利用现状来说,面向数字人文研究的数字化古籍文献的深度利用所面临的主要问题有以下两点:

由于版权等原因,数字化的古籍文献分散于不同公司、不同研究机构中,而且重复建设严重,这不仅造成功能单一,更使得数据往往只是某一个类别、某一个专题。数据的分散不能实现多元化及整体化的研究对比与分析,因为有比较才有鉴别,有比较才有发现,有综合才能发现知识、规律的全貌。大数据时代已经降临,超大规模古籍数据、更多更丰富的古籍文献汇集在一起,可以获得更多、更全面、更准确的资料,可以满足文、史、哲、经等个学科研究的需要,(15)特别对于交叉学科研究而言,更是不可或缺。面向数字人文研究的数字化古籍文献整合是共享或者合并来自于两个或者更多应用的数据集,创建一个具有更多功能的数字人文研究应用的过程。数字化古籍文献的整合将有利于知识揭示、现象发现,极大节省研究者的时间,提升研究和创新水平。通过异构数字古籍文献的融合、聚类和重组,使资源从数据层的揭示与展现转向信息层、知识层的深度服务;通过将零星的史料片段按一定规则重新组合、排列,对蕴含在古籍中的知识进行多元重组,使不同知识元之间建立关联,形成一个多维的知识网络,可以帮助研究者发现原有脉络中难以获得的发现与解读。因此,数字化古籍文献整合势在必行,打破古籍数据库建设“小、散、乱”(16)以及各自为政的现状应成为学界共识。

基于古籍文献的语言、文学及历史等人文学科的研究在学术上的突破往往依赖于新材料的发现,(17)虽然数字化古籍文献的使用引发了研究思维的转变,改变了学术前沿的概念,但受研究工具及研究手段限制,人文学科研究在创新方面遇到新的瓶颈。在传统研究范式的制约下,一些研究项目无法开展,研究视野受到限制,传统的数字化古籍文献的开发及利用模式难以出现突破式的发现。马克思说过“生产工具促进生产力的发展”,而先进的研究工具将有利于学术研究的发展,新的数字人文研究工具与方法的出现将突破传统的研究范式。古籍文献数字化的广泛普及促进了古籍的利用,大大节约了研究者查找资料的时间,消除了古籍文献占有的客观制约,史料的综合化消除了语言、文学、历史、哲学等学科的材料隔阂。在如今强调各学科协同创新的大背景下,更为人文学科的交叉研究提供了有利条件。

大规模古籍文本具有覆盖时空跨度大、材料面广的特点,很大程度上避免了选择资料时的疏漏与偏废,可弥补史学家惯用的“选精”与“集粹”研究方法之缺陷。大规模古籍文本可视化分析与挖掘以古籍文本为基础,采用大数据的研究理念,通过大数据实时分析技术,以词频分析统计为研究对象,采用数据降噪、基于窗口时间单位的统计分析计算,以时序预测、滑动窗口预测等分析与挖掘算法定量分析字词的历史词频分布规律,对古籍文本中的人物、历史事件、地名、官职、称谓等实体进行抽取并建立关系,呈现每个时期古籍文献共时性的空间分布与变化。空间维度将全面立体地展示语言、文化、历史等的发展变化。

数据和方法是数字人文的两大支柱。数字人文领域的研究使数据驱动(Data-Driven)研究成为主流,(18)而数据已成为数字人文研究的基础和核心,古籍文本的收集、整理是大规模数字化古籍文献研究的基础,古籍文本语料库的构建主要采取整合已有数字化古籍文献的方式。大规模古籍数据并不是单一数据很大,其最核心的问题是多源跨域数据的融合,即通过融合不同类别、不同专题的数字化古籍数据的知识来共同解决单一数据解决不了的难题。大规模古籍数据有三个非常重要的层次:数据的获取、数据的描述和数据的分析。在语料库的建设过程中,并非进行简单的堆砌就可以了,它应该具备三个基本要求:样本的代表性;规模的有限性;机器可读性。(19)因此,古籍文本语料库构建需要遵循一定原则:

数字化古籍文献的整合主要目的是为人文学科的研究服务,因此,古籍文本语料库的构建需要以研究的适用范围为导向,有针对性地收集多源数据集,尤其是有一定权威和认可度的高质量数据,实现多数据源的浓缩,降低人文学者对比、统计和分析数据的劳动强度。

古籍数据整合的一致性,首先表现在格式的一致性,多源数据的一大特点是格式的不同。由于采用统一的方式存储、处理,因此必须对数据进行统一的编码格式转换。目前,TEI被世界各国以文本为基础的人文研究广泛使用。为了提高电子文本的规范化和标准化程度,1987年,计算机语言协会(ACL)、文学与语言计算协会(ALLC)和计算与人文协会(ACH)赞助并组织的文本编码倡议(TEI)为电子形式的文本材料定义了一系列的通用标准。(20)其次,数据内容的准确性也应保持一致性,这样才能提高分析结果的可靠性。再次,是数据的分割、统计、分析方法的一致性,只有在同一标准下进行分析及统计,由此得出的结果才有可比性。因此,古籍文献在分割、保存、整合、透视和展示方式上的一致性,可以最大程度地保证研究结果的可靠性、可检验性及再现性,也有利于后期的更新与维护,从而更大程度上保证数字人文的可持续发展

数字化古籍文本语料库是一个庞大的文本文献集合体,主要用于观察、分析和研究文、史、哲、经等多个学科的需要,不仅仅满足于传统的语言学词汇、语法、语义语用、语体等研究的需要(21),更能满足文、史、哲、经等多个学科的需要,因此,加工深度及标注信息也不必完全仅仅反映各种语言学属性,数字化古籍文献的语料就应该具有多样性,包含各种人文学科的语料,使基于语料库的研究更加开放,更具多元化视角,更加注重多学科的交叉和融合。语料的年代跨度也需要多样性,年代的跨度越长,越能为人文学科研究提供丰富可靠的素材

人文研究学者有时需要的不仅仅是统计分析的结果,还有对原始数据的研究数据。传统的人文学科研究者常从档案、出版物或者人工制品等人类文化记录中提取数据,可能花费几个月或几年的时间。而通过语料库数据收集与利用将使研究者的时间极大地节省,并能利用现有数据提出新的研究问题或作为有效的例证,从而提升研究和创新水平。可见,语料库文本数据的共享也是非常有必要的。

目前,已数字化的古籍文本主要以两种形式存在,一种是分布在网络上的各种专业性论坛或网站中,另一种则存储于专业数据库中。从数据收集角度来说,主要有网络数据采集与专业数据库文本获取两种来源,然后对获取来的文本进行编码、分类、标注等处理,大规模数字化古籍文本语料库的构建过程如图1所示。利用计算机自动、半自动收集的方式,加快了数字化古籍文本建库的速度,为建设大规模古籍文本语料库提供了保障。经过近半年的抓取及抽取,收集、整理了41 563种(约46亿字)数字化古籍本文,从上古到民国的经、史、子、集等40个类目的文献,数量具备一定规模,覆盖面广且有时间上的延续性,形成了一个比较综合、学科门类全面的数字化古籍文本语料库。

图1 大规模数字化古籍文木语料库构建

构建面向人文学科的分析系统并非单纯将古籍文献“数字化”,而是需要凭借人文学者对古籍文献的深刻理解,创造性地进行编码、归类和整合。大规模、时间跨度长的数字化古籍文献普遍存在体量庞大、标注不明确和不同年代同类信息含义有差异等诸多问题,因此,对数字化古籍文献进行系统、合理的分类与编码是开展数据库构建和进行最终定量分析的基础与前提。在进入生语料库之前,数字化古籍文本语料需要经过以下三个数据整理步骤:

在大规模机器自动采集的过程中,网络采集源的数据质量难以通过机器来判定,因此,人工进行数据整理是不可或缺的,也是保证高质量古籍文本语料库的需要。通过人工检查的方式对数据进行整理,去除低质量、残缺的数据,挑选出高质量的数字化古籍版本,这样更能提高分析、统计的准确性,增强分析结果的可信度。

由于采集的古籍文献数据来源不同,文本的载体格式也多样化,包含PDF、WORD、HTML等多种形式。为此,在数据整理及标注前需对采集的数据进行文本数据的抽取及编码转化,文本数据的抽取通过程序自动进行,抽取的过程中会把文本的UTF-8、Unicode、UTF-16BE、GBK等编码转换成统一的Unicode码。

采集、抽取的文本字体通常存在中文简体、古籍繁体及中文繁体三种,对于以文本为基础的统计及内容分析来说是复杂而困难的,且不符合一致性原则,采用统一的字体编码则可以降低复杂度并保证准确度。因此,采用厦门大学教育部语言文字应用研究所、北京师范大学联合开发的《汉字简繁文本智能转换系统》进行简繁异体字转换,形成统一的简体字。(22)《汉字简繁文本智能转换系统》采用语料库语言学的研究方法,通过数线性模型(Log-Linear Models)进行简繁转换,准确率达到97%以上。(23)

生文本语料的标注也是语料库构建的一个重要环节,古籍文献的准确标注能够使计算机快速准确地找到目标古籍文献,并能有效地建立古籍文献之间的关联。生语料的标注既要适应计算机自动处理的需要,也要考虑到人文学科研究的需要。生文本语料的标注分成两部分:一是对古籍文献的外部特征的元数据标注;二是对古籍文献的内容进行标注。古籍文献的外部特征主要是指文献名称、作者(包含编、撰、注、疏等)、作品年代、著者信息(出生时间、死亡时间、出生地等)、版本信息、作品分类等。古籍文献的外部特征能在分析统计时提供必要的信息,分析统计过程中的时间点就是按照作品的作者卒年为依据的,在卒年不明确或无法考证时就按作品所在年代为依据(作者的卒年及古籍文本的版本考证是一个难题,存在诸多争议,涉及史书语料时代性这一老大难问题,由相关专业人士核查将保障分析的准确性)。

在标注古籍文献作者信息的时候,将费正清中国研究中心、台湾中研院历史语言研究所和北大中国古代史研究中心共同开发(CBDB)与复旦大学中国历史地理信息系统(CHGIS),《中国历代人物传记资料库》(CBDB)由创始者郝若贝教授(Robert M.Hartwell)将初版遗赠哈佛大学燕京学社(24),后续开发工作由哈佛大学燕京学社、台湾“中研院”历史语言研究所及北京大学中国古代史研究中心三方合作进行,截至2013年10月,CBDB声称收录7世纪至19世纪的中国人传记资料共32.8万条。中国历代人物传记资料库包含丰富的结构化的人物传记资料(生卒、别名、地理信息,任官、亲属关系、社会关系等)。CHGIS由“罗斯基金会”资助,试图建立一套中国历史时期连续变化的基础地理信息库,为研究者GIS数据平台、时间统计以及查询工具和模型。根据研究需要从中国历代人物传记资料库(CBDB)中抽取作品作者的生卒时间、地理信息等,从CHGIS整合部分地理信息。抽取、整合多个外部数据源,充分利用外部的已有资源,不但可以减少标注的时间,而且丰富了数据内涵,准确性及可靠性也得到了保证。

基于词频分析是文本挖掘的一种重要研究方式,也是文本可视化的一种重要模式。面对海量文本时,人们需要对每个文本或者整个文本集合的主要内容进行快速浏览,因此需要进行基于词频的文本可视化。最常用的文本可视化的思路是将文本看作一个词汇的集合,利用词频信息来呈现文本特征,如Google实验室推出Books Ngram Viewer就是以历代词频分析研究为基础并进行可视化分析。对古籍文献的内容进行标注是内容分析的基础,也是数字化古籍文献知识提取和知识重组的关键。词汇是古代汉语研究中的重要内容,由于汉语连续书写时词与词之间没有明显的分隔标记,因此古籍分词是内容标注的关键。对古籍文献的切分也必须遵循古代汉语词汇的发展特点,大规模地对不同朝代的古籍文本分词,在缺乏一定规模的断代词典的情况下进行,分词准确性难以保证。采用分朝代、分词汇表的方式切分才符合古代汉语词汇的发展规律,即切分不同朝代的古籍文本语料时采用相应朝代的词汇表,这在最大程度上可以保证古籍分词的准确率。

本研究采用分段叠加的方式,从已有的古代汉语词汇词典及专书中提取词汇,从已有语料中采用统计学的方法自动提取词汇作为补充,并根据古代汉语词汇发展的特点、断代词词典及专书的研究现状,对古籍文本按四个断代进行切分,分别是:上古,中古,近古,近代。上古指夏商周秦汉(前2070—22)这段时期,也就常说的先秦时期;中古指东汉魏晋南北朝隋唐(23—684)这段时期;近古指武则天当政(684)到清初(1644)这段时期;近代是指从清朝到民国前这段时期。采用从《汉语大词典》(去掉现代汉语部分例句)等词典例句中提取的词汇的bigram特征,以bigram模型为主对古籍分词。以《左传》为例,其准确率达到87.3%。随着词汇及特征模型的完善,分词的准确率会得到一定的提高。

目前,大型量化历史数据集的创建与运用已成为国内外史学界共识,量化数据库研究新方法不断出现。与以往的量化数据库不同,史学量化研究基本是基于规则结构化的数据统计分析,但面对庞杂的古籍文本,传统的统计分析工具已难以胜任,新的文本内容挖掘及数据可视化分析成为数字人文研究的重要手段。文本挖掘技术拓展了现有的数据挖掘技术,把挖掘的对象从结构化的数值数据扩展到非结构化的文本数据,可以帮助我们从海量的文本数据中发现新的模式、模型、规则、趋势等知识。(25)海量信息使人们处理和理解的难度日益增大,传统的文本分析技术提取的信息也无法满足人们利用浏览及筛选等方式对其进行合理的分析理解和应用,可视化技术将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来,为人们提供了一种理解海量复杂文本的内容、结构和内在规律等信息的有效手段,(26)使人类视觉认知、关联、推理的能力得到充分的发挥,为人们更好地理解文本和发现知识提供了新的有效途径。可视化与文本挖掘方法在人文社科研究中的应用虽然刚刚起步,但为人文社会科学研究带来了新范式与方法,为古籍深层次利用与开发带来了广阔的前景。

为了满足用户自定义字符检索的需要,在统计分析时需要对整个全文数据进行遍历。采用传统的处理方法对4万语种古籍文本进行统计分析将很耗时,不能及时地得到分析结果,其遇到的瓶颈主要在读取数据与快速统计分析上。而大数据处理的内存实时计算思想能很好地解决读取数据的瓶颈问题,在系统平台开发的过程中,设计一个内存数据存储器,在系统启动时把所有数据加载到内存上,每次进行统计分析时直接从内存数据存储器中提取数据,避免了频繁地读取硬盘所带来的长时间等待问题。MapReduce的大数据处理思想是目前处理大数据的常用方法之一,对MapReduce功能进行改进,对文本分组进行并行统计,再对结果进行汇总即可。通过以上处理,4万余种古籍文本在16 G内存、CPU为Intel Core i7的PC机器上实现了1秒内实时统计分析。

分析和挖掘是与实时分析统计紧密关联的,实时统计是分析与挖掘的基础。文本可视化分析及挖掘由两部分组成:

(1)以时间轴为主线的散点图分析。

以系统实时统计分析结果为基础,通过散点图(scatter)获得各个时期词语的词频信息(见图2),从而反映出汉语词汇系统的量化发展过程。

图2 词汇词频时间轴的微观分布

(2)以时间轴为主线的曲线分析。

该部分以前面的词频信息为基础,采用数据降噪、基于窗口时间单位的统计分析计算,以滑动窗口预测等分析与挖掘算法定量分析字词的历史词频分布规律(见图3)。

图3 以时间轴为主线的宏观曲线分析

空间信息可视化以古籍作品的作者为主线,利用地理信息系统(GIS)技术,将我国庞大的、静态的、分散的古籍文献进行大规模的数字化集成、发布和地图展示。以古籍文献的检索为线索在地图上呈现相关作者的地理分布,方便研究人员分析语言现象、历史事实、风俗面貌、社会文化及地理等的分布,可帮助研究者在大量的古籍文献中归纳一定模式,发现新的模式、模型、规则、趋势等,有助于学者探究语言、文化、历史和地理环境的互动,以深度开发中国古籍文献中的多元文化价值,适应学术研究和教学的深度需求。(www.xing528.com)

大规模古籍文献定量分析不仅有助于发现很多未知现象,而且很多发现还与我们的预设、常识和已知有很大不同。大规模古籍文献经过可视化定量分析后,极易有一些不期而遇的发现。大规模古籍文献的收集整理和量化数据集是相当有难度的,而对历史数据定量分析结果的理解和诠释挑战更大,是当前和未来从事历史数据定量分析的学者所必须面对的难题。以大规模数据为基础的量化研究还能较好地纠正研究的主观性,实现研究从常见的理论或问题驱动向数据或经验驱动的转变。运用自然科学中的数学方法对历史资料进行定量分析,可以使史学趋于精确,在此基础上对一些历史事件与现象进行定量分析,使结论更具可靠性,能瞬间完成传统研究方法所不能完成的工作。

比如对武则天,历史评价向来毁誉不一(27),学者们发表了不少文章,但一直存在争议。有人认为她功大于过,有人认为她过大于功;有人认为她功过参半,有人甚至全盘否定,至今尚未得出比较一致的结论。究其原因,传统研究中,研究者常将“某一或某些例证所反映的现象普遍化”,从而可能丧失真实性,导致研究结果存在一定的不可靠性,需要加以改进。下文将通过大量古籍文献来分析对其称谓的变化。

根据统计分析,历史文献中对武则天各种称谓的变化如图4所示,图5则是这些文献的分布年代。相关称谓有:武后、武才人、武则天、武氏、武皇后、武媚、则天大圣皇后、则天大圣皇帝等。比如武则天去世后,唐人对其评价曾发生过一些变化,王双怀教授发现“唐中宗给武则天举行隆重的葬礼”(28),而睿宗即位后“对武则天的评价明显降低”,“唐玄宗基本上还是肯定了武则天”,“盛唐以后的统治者对武则天是相当尊重的”。从图4中的词频可以看出,到唐末很少出现直呼其名或称其“武氏”的,从唐中到唐末基本以“武后”相称,虽然不承认其皇帝身份,但亦无刻意贬低。

五代后,文献中大多称其为“武氏”,与“武后”不差上下。从大量文献来看,这一时段对武则天任用酷吏、改朝换代的事和武周政治进行了严厉的抨击,“总的看来,是否定武则天的”(29)。北宋时期,欧阳修、宋祁等人用最恶毒的语言攻击武则天,但是只是反对其参与朝政、任用酷吏、杀戮宗室大臣以及改朝换代,并不否认她的政绩。至南宋,人们对武则天的评价越来越低,但也不是持全盘否定的态度。到了清初,因对异族统治不满又无能为力,人们遂借古讽今,但也有文献对武则天的评价较高。称其“武皇后”“武媚”者基本上集中在五代十国到南宋这段时间,而称其为“则天大圣皇帝”的基本以史书记载为主,文献分布也比较分散。所有以上记录武则天称谓的文献作者空间上的聚合分布,除了江浙一带比较多以外,其他地方分布得比较均匀。

图4 历史文献中武则天称谓的变化

图5 称谓文献分布朝代及百分比

大数据研究作为一种全新研究方法,以其超越传统调查数据的样本量和时间跨度,为社会科学经典理论的验证和拓展提供了更多空间,使古籍数字化在深度开发上更有所作为。本研究采用大数据视域下人文学科的数字人文研究方法及研究范式来研究古籍文本的可视化分析及挖掘,是对古籍文献深层次的开发与利用的一次尝试,但仍有不少需要改进及细化的地方。

历史学家对当时社会、人文环境的认识比较全面和深入,在对各种历史文本信息的解读和对分析结果诠释方面,往往也拥有比较大的优势。历史学者在长期训练、研究中积累起来的专业历史知识对于构建、研究量化历史数据集工作是必不可少的,其对具体史实的细致把握,往往能够弥补大规模定量分析注重整体推论但忽视部分或无法理解具体演变过程和机制的弊端,而对历史资料进行研究和讨论需要定量研究与定性研究并重。

(1) 作者单位为广西民族大学。

(2) 梁晨、董浩:《必要与如何:基于历史资料的量化数据库构建与分析 以大学生学籍卡片资料为中心的讨论》,《社会》2015年第2期。

(3) 梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015年02期。

(4) 计量方法在历史研究中运用的发展历程,参见孙圣民:《历史计量学五十年—经济学和史学范式的冲突、融合与发展》,《中国社会科学》2009第4期。

(5) [美]埃雷兹•艾登、[法]让-巴蒂斯特•米歇尔:《可视化未来:数据透视下的人文大趋势》,王彤彤、沈华伟、程学旗译,浙江人民出版社2015年版。

(6) 陈云松、黄超:《大数据推动社会科学研究深挖潜力》,《中国社会科学报》2015年1月12日B1版。

(7) 沈浩、黄晓兰:《大数据助力社会科学研究:挑战与创新》,《现代传播(中国传媒大学学报)》2013年第8期。

(8) 王兆鹏:《三大功能:对未来数字化古籍的期待》,《中国社会科学院院报》2007年9月18日。

(9) 参见王兆鹏、郁玉英:《影响的追寻——宋词名篇的计量分析》,《中国词学研究会会议论文集》2008年。

(10) 参见李伯重:《史料与量化:量化方法在史学研究中的运用讨论之一》,《清华大学学报(哲学社会科学版)》2015年第4期。

(11) 参见胡俊峰、俞士汶:《唐宋诗中词汇语义相似度的统计分析及应用》,《中文信息学报》2002年第4期。

(12) 参见徐清、石向实、王唯:《古籍数字化资源的深度开发》,《图书情报工作》2007年第3期。

(13) 欧阳剑:《大规模古籍文本在中国史定量研究中的应用探索》,《大学图书馆学报》2016年第3期。

(14) 马创新、曲维光、陈小荷:《中文古籍数字化的开发层次和发展趋势》,《图书馆》2014年第1期。

(15) 参见杜晓勤:《国学大数据时代来了》,《光明日报》2013年9月16日第15版。

(16) 杜晓勤:《国学大数据时代来了》,《光明日报》2013年9月16日第15版。

(17) 贾文龙:《数字化时代对史学研究模式的影响》,《第四届中国古籍数字化国际学术研讨会论文集》2013年。

(18) DataDriven:DigitalHumanitiesintheLibrary,http://dhinthelibrary.wordpress.com/.

(19) McEnery,Tony&Wilson,Andrew,Corpus Linguistics,Edinburgh University Press,1996,p.223.

(20) Michael Sperberg-McQueen,Text Encoding and Enrichment.In The Humanities Computing Yearbook 1989-90,ed.Ian Lancashire(Oxford:Oxford University Press,1991).

(21) 毛建军:《古汉语电子语料库资源与类型概述》,《辞书研究》2011年第6期。

(22) 汉字简繁文本智能转换系统,http://jf.cloudtranslation.cc/。

(23) Yidong Chen,Xiaodong Shi,and Changle Zhou.A Simplified-Traditional Chinese Character Conversion Model Based on Log-Linear Models.International Conference on Asian Language Processing 2011,Penang,Malaysia.

(24) 中国历代人物传记资料库,http://isites.harvard.edu/icb/icb.do?keyword=k35201。

(25) 陆宇杰、许鑫、郭金龙:《文本挖掘在人文社会科学研究中的典型应用述评》,《图书情报工作》2012年第8期。

(26) 唐家渝、刘知远、孙茂松:《文本可视化研究综述》,《计算机辅助设计与图形学学报》2013年第3期。

(27) 胡戟:《正史中的武则天的正面与侧面》,《北京日报》2015年1月19日第19版。

(28) 王双怀:《历代对武则天的评价》,《人文杂志》1996年第3期。

(29) 同上。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈