首页 理论教育 汉语基督教文献数据库编目实践优化策略

汉语基督教文献数据库编目实践优化策略

时间:2023-07-05 理论教育 版权反馈
【摘要】:黄薇徐锦华“汉语基督教文献书目数据库”是上海大学2012年度国家社会科学基金重大项目“汉语基督教文献书目的整理与研究”课题的重要成果展示平台。在技术上,汉语基督教文献书目数据库平台的后台管理端采用“三审三校”的工作流程,保证入库数据的准确性;同时采取唯一标识验证自动防止数据冗余,并对数据库的结构字段采取全动态管理,使得整个数据库具有高度的灵活性与可变性。

汉语基督教文献数据库编目实践优化策略

黄 薇 徐锦华(1)

“汉语基督教文献书目数据库”是上海大学2012年度国家社会科学基金重大项目“汉语基督教文献书目的整理与研究”课题的重要成果展示平台。该数据库所收录的文献包括天主教、基督新教东正教三大教派由传教士与中国信徒撰写、翻译或由基督教机构出版的基督教相关主题的中文文献资料,既包括纯粹的神学著述,也包括基督徒或基督教机构的文化教育医疗慈善等社会活动和事业的资料,还有基督徒和基督教机构的一些纯世俗主题的文字资料(如文史哲、社会科学、自然科学音乐美术等)以及中国社会人士褒贬基督教的材料。研究对象,以作者或出版者身份而言大致包括三类:第一类是传教士与中国基督徒以汉语撰写和编著的与基督教有关的文字,包括著述、手稿、书信、报告、日记、报刊、档案、差会/教堂/传教士自主印发的宣教小册子、宣传单等;第二类是非教徒的中西人士所撰写编著的有关认识、赞同或者批评反对基督教的文字;第三类是传教士和中国基督徒撰写、编著及基督教出版机构出版的各类世俗读物,鉴于明末以来基督教传播运动是中西文化交流的重头戏之一,因而亦在搜集整理之列。

自2012年年底起,该课题组系统地对海内外各大高校、图书馆、档案馆等机构收藏的汉语基督教文献书目进行搜集整理、编目,并撰写简明的书目提要;也收集未被档案馆图书馆收藏的散佚民间的汉语基督教文献,整理后陆续录入书目数据库中。在整理的过程中,除了正式出版的书籍、报刊等大项,还会涉及大量特殊文献类型,如宣教小册子、信札、手稿、瞻礼单、宣传单、日记等,以通行的编目规则显然难以处理。因此,课题组结合《中国文献编目规则》与汉语基督教文献的自身特点,编制了“汉语基督教文献编目规范”,将文献的题名、责任者、出版信息、馆藏信息、主题分类或关键词等信息编制成集,并撰写简明内容提要,再将上述书目信息制作成支持交叉、模糊检索的数字化数据库。

在技术上,汉语基督教文献书目数据库平台的后台管理端采用“三审三校”的工作流程,保证入库数据的准确性;同时采取唯一标识验证自动防止数据冗余,并对数据库的结构字段采取全动态管理,使得整个数据库具有高度的灵活性与可变性。更重要的是,该数据库为将来各种功能的扩充预留余地,使得整个平台成为一个能够有机生长的系统。在注重后台数据库效能的同时,也强调尽可能方便数据库的使用者,以发挥数据库在研究中的作用。

图1 数据库书目检索界面局部

在结构上,该平台以书目信息数据库为核心,在条件允许的情况下,还将于图书书目数据及部分文献全文信息的基础上制作延伸性的数字化子库。目前第一步尝试是“作者传记”子库。该子库收录的是作者的生平小传与照片或画像,使用者可以按照宗教派别、国别或者人名进行分类检索;在详细条目中,可以链接到“书目数据库”中与此人相关的著作条目。另外,课题组目前也还在论证、摸索“历史图像与汉语基督教文献”等子库的规划,从而围绕“汉语基督教文献”这一主题,使人物信息、机构信息、历史影像资料等进行有机的结合。

图2 数据库后台审校流程

图3 数据库“作者传记”子库界面

在内容上,“书目数据库”的资料搜集范围既包括纯粹的基督教义理著述,也包括基督徒或基督教机构所介绍的西方科学文化知识(如文史哲、社会科学、自然科学、音乐、美术等)及教育、医疗、慈善等社会事业诸方面的资料。中国社会人士褒贬基督教的文字材料也收录在内。

在类别上,按照文献形成时间的不同及所属宗派,分为“1840年之前的天主教”“晚清天主教”“晚清新教”“民国天主教”和“民国新教”五大类文献,由相应的五个子课题组分工合作。根据文献的实际形态,分为著作、连续出版物(报刊)、档案、信札四大类。著作类文献的内容主题较为集中、突出,因此采用主题分类的方法,分为23类主题;而连续出版物(报刊)的内容庞杂,则采取著录内容主题关键词的方法;档案与信札的内容更为散漫,因此由编目人员按照其中主要内容选取人、地、事、时的关键词作为标引。

根据书目数据库收录文献的情况,课题组制订了详细的著录规范与说明,包括汉语基督教文献数据库登录与使用说明、数据库著录规范与说明、数据库样表、提要范本、出版时间著录格式、汉语基督教文献页数与卷册数著录说明、连续出版物时间格式、著作主题分类说明等一系列相关规定,现择要介绍如下:

根据数据库收录文献类型,著录规范主要分为著述、连续出版物、信札和档案四大类。文献种类不同,著录项也不尽相同。以著作类为例,包括子课题分类、题名、责任者、显示出版时间、出版时间开始、出版时间结束、版次、出版地、出版机构、丛书、页数、卷册数、附件、尺寸、装帧、印刷方式、主题分类、序跋、收藏机构、索取号、参考文献、提要与考证、相关文献等共计25项。其中除了题名、责任者、出版地、出版机构、丛书等为一般图书馆、档案馆等公藏机构常用项外,也有一些项目是为该数据库专门定制的,以期向使用者提供更加完备的相关信息。如“装帧”一项,既有传统的中国线装书籍,也有近代洋装书籍(即通常所说的平装本);而“印刷”一项则包含版刻、石印、铅印等不同印刷方式以及手抄稿,这部分信息的录入对研究教会出版史有重要的作用。

在文献形成时间的著录上面临两大问题,一是涉及干支纪年、年号纪年(中日两国采用)、西历公元纪年等多种方式;二是不同形态的文献有不同的形成时间,比如图书的出版时间一般为一个点,而档案、报刊则为一个时段。在衡量了不同解决方案的利弊后,课题组没有采取制作统一的转换表的方法。这种方法的优点是一次成型,录入时负担较小;缺点则是如果补充新的纪年方法以及进行校对的话,工作量较大。课题组采取的方案是:录入时,将时间拆分为三个互相关联的字段,前台显示的文献时间,按如实著录原则显示文献的本来面貌;另有两个检索抓取用的字段,按照公历录入。这样前台输入“1909”进行检索,则文献本来著录的时间无论是1909年、宣统元年、明治四十二年、己未年,都可以检索到,以此保证文献的查全率。鉴于传统中文书籍的出版时间会使用节令等特殊时间节点,对于这些时间节点的转换也给出了明确的规定(2)

至于文献页数与卷册数的著录,因古籍与洋装书计数方式不同,故区别对待。古籍中卷轴装、线装、经折装、蝴蝶装、包背装的书籍不著录“页数”项,而著录“卷册数”,即N卷N册。不分卷的书籍则录为“不分卷N册”。散页的古籍著录实有叶数,即N叶,不著录“卷册数”项。配有函套或木匣的古籍,在“册数”后说明函数或匣数,即N卷N册(N函)。连续出版物无页数和卷册数项。信札则按照实际情况著录信纸数量和附件数量(包括信封、名帖等)。比较复杂的是洋装书部分,具体如下:(1)单册图书,正文页码(3)连续编码的,不著录“卷册数”项,只记录“页数”;(2)单册图书,正文页码分多段编码、未标页或页数不明的,不著录“页数”项,只著录“卷册数”;(3)单册的抽印本文献,不著录“卷册数”;“页数”著录从第1页开始编码的,则著录总页数;否则,著录第N—N页;(4)单册的抽印本文献,如页码难以计算或无页码的,不著录“页数”项,只著录“卷册数”;(5)一种以上无总书名的文献合订为一册的,不著录“页数”项,只著录“卷册数”;(6)若干卷文献合订为一册,多卷页码连续的,“卷册数”著录N卷1册,并如实著录“页数项”;(7)若干卷文献合订为一册,多卷页码不连续或页码不明的,不著录“页数项”,“卷册数”著录N卷1册;(8)若干卷文献合订为多册的,多卷页码连续的,“页数项”著录页数项,“卷册数”著录N卷N册;(9)若干卷文献合订为多册,多卷页码不连续或页码不明的,不著录“页数项”,“卷册数”如实著录;(10)散页的书籍,不著录“卷册数”,仅著录“页数”,按实有页数计算;(11)散页的以图为主的图片、挂图或地图,不著录“卷册数”,仅著录“页数”,按实有数量计算。

在人名、地名、机构名等专有名词的处理上,也采取前台显示的内容如实著录、保持文献原来面貌的原则。另外,后期将根据导出的专有名词情况在校对的同时制作转换表。通过后台转换表的对应,提高专有名词的查准率

汉语基督教文献书目数据库提供全文检索,但在实际使用中,经过分类的文献主题及其相关提要能够极大提高数据库的查准率,也为数据库的后期开发提供便利。因此,制定规范且具可操作性的主题分类词表就尤为重要,由于这部分内容目前仍在调整中,故择其要点略作展示。目前数据库的主题分类为圣经、经义研究、教理讲道、辨教护教、教仪教礼、通谕规章、教会史、宗教人物传记、宗教文艺时政、教育、医药卫生、文字出版、其他社会事工、日常生活、语言文字、自然科学、社会人文、世俗文艺、单张、教案、义和团、反教文献、非基运动、其他教外文献等25种。每本书使用的主题分类词不超过三个,同一本书里两类或三类主题是并重的,无法只用一个主题词概括。如《圣经》改写的通俗故事,可以分类为“圣经|宗教文艺”。同一著作的不同版本应保持主题一致(一般以最早版本为准)。某部著作没有不同版本时,可以参考同类相近的文献。

在提要的撰写上,规定以每篇300到500字为宜,包括四部分内容:作者、对著作概括性的描述、主要内容(以序言、目录为依据,标明图表、照片情况)、参考文献(如写作提要时,参考他人著作,必须写明出处)。连续出版物提要的撰写包括五个部分:编者、刊期(创办时间地点)、刊物性质、主要内容(栏目信息)、刊物特点或知名文章等。

课题组成员花费近两年的时间在上海、北京、重庆、香港、台北等地及美、英、法、韩、日等国开展了相关的编目工作。目前,“汉语基督教文献书目数据库”已经收录超过1.6万条书目数据,其中书籍13 200多种,报刊531种,档案1 700多种,信札480多封。按时间及宗派划分,包括东正教文献15种,1840年前天主教文献1 300多种,晚清天主教文献2 000多种,晚清新教文献3 700多种,民国天主教文献2 100多种,民国新教文献6 000多种。

在这一过程中,根据编目实践的进展,对编目规范、数据库平台进行相应的调整、完善。下一步“汉语基督教文献书目数据库”工作的重点,是对相关数据的审校、前台检索功能的调试、专有名词对应表的制作等。

例1

说明:精确到日,按照yyyy/mm/dd格式著录即可。

例2(www.xing528.com)

说明:显示时间若精确到月,著录时则以该月最后一日为时间点。著录2月条目时暂定最末一日为28日。

例3

说明:显示时间中若有上、中、下旬字样的,著录时分别以10日、20日、30(或31)日为时间点。

例4

说明:显示时间中若有“春、夏、秋、冬”字样的,著录时选择合适的时间点。一般而言,3、4、5月可视作春天,6、7、8月可视作夏天,9、10、11月为秋天,冬天则是12、1、2月。如此,春的时间点就是5月31日,夏则8月31日,秋则11月30日。冬的情况比较复杂,因为年初和年末都是冬季。建议著录人在著录时,考辨条目确切时间,于12月31日和2月28日两个时间点中择一著录。

例5

说明:显示时间中若有“年初”字样的,著录时以1月31日为时间点。

例6

说明:显示时间若只是年份,著录时以12月31日为时间点。

例7

说明:显示时间中若有“仲春”、“初夏”、“季秋”等时间概念模糊的字样的,著录时酌情处理。如“仲春”的时间点可著录为4月30日,即春季三个月里居中的4月之后,同样的,“初夏”,6月30日;“季秋”,11月30日,等等。以此类推。公历的1到12月对应:季冬、孟春、仲春、季春、孟夏、仲夏、季夏、孟秋、仲秋、季秋、孟冬、仲冬。

例8

说明:显示时间中若有“重阳”、“清明”等精确到日的字样的,著录相应的时间点。用万年历查阴阳历转换。

例9

说明:显示时间中时间存疑的,若能推测到年的,则按前面的例子著录相应时间点。

例10

说明:显示时间中时间存疑是一个范围的,则开始时间著录该范围的上限年份,结束时间著录该范围的下限年份。其中特别注意[18??]的情形,要结合子课题分类来判定上下限。

(1) 作者单位为上海图书馆

(2) 参见附录“出版时间著录转换方法及格式”。

(3) 目录、序跋、注释、附录等不算正文。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈