首页 理论教育 大数据时代下少数民族古籍数字化发展前景与问题

大数据时代下少数民族古籍数字化发展前景与问题

时间:2023-07-05 理论教育 版权反馈
【摘要】:大数据时代下的少数民族古籍数字化发展前景将是:近年来,少数民族古籍资源的保护引起了国家有关部门的高度重视。国家民委副主任丹珠昂奔在挂牌仪式上表示,该中心将与国内外有关机构和专家进行广泛联系,开展密切合作,使中国少数民族古籍得到有效保护,并指出“数字化是古籍再生性保护的重要手段,代表古籍整理的未来方向”。该资源信息中心的成立极大地推动了少数民族古籍数字化事业。

大数据时代下少数民族古籍数字化发展前景与问题

刘 琳(1)

古籍是指产生于1911年以前,记载中国古代传统文化、具有中国古典装帧形式的典籍。少数民族古籍是指中国少数民族在历史上遗留下来的古代书册、典籍和文献资料,主要内容有文学、历史、地理政治军事哲学法律宗教语言、艺术、生产技术、医药、民俗及乡规民约和石碑古籍。由于各民族历史文化不同,古籍存世情况有很大的差异,有些民族的古籍以1911年为下限,有些民族的古籍则限定在1949年前。(2)各民族古籍是人类历史发展过程中遗留下来的宝贵财富,是历史发展的见证。少数民族古籍的保护与开发利用是一项事关少数民族古籍事业发展的全局性和战略性工作,在大数据时代下,利用数字化技术保护、开发、利用少数民族古籍已成必然趋势,它不仅可实现少数民族古籍的永久保存和再生性保护,而且可通过网络化共享、电子化方式实现少数民族古籍文献信息的多途径有效利用。

将许多复杂事件、事物形态等信息抽象为可度量的数字、数据,再以这些数字、数据建立起数字模型,把它们转变为一系列二进制代码,引入计算机内部进行统一处理,这就是数字化的基本过程。在人类生活中,不仅文字、图像、语音等信息可以用数字化符号0和1来表示,甚至我们对事物、事件的想法、观念都可以通过数字化技术得以实现,从而服务于政、服务于民、服务于人类生活的方方面面。

古籍数字化属于古籍的整理范畴。少数民族古籍数字化过程应该分两步实施:一是建立一个整合少数民族文化信息的资源网络,该系统由资源数据库互联网管理系统、安全系统和网络门户等构成,形成一个完整的逻辑系统,通过门户站点为用户提供各类信息服务。它应该是一个开放的、可不断扩充的系统,应与我国多方面数字化资源实现互联。二是通过数据挖掘技术、虚拟现实技术,在用户检阅的时候,可快速、准确地提炼出有价值的信息,直观、真实地呈现到人们眼前。

在大数据时代,利用数字化技术及其衍生出来的相关技术,我们让信息以比特的形式存在于虚拟空间之中,使记载和传播历史文化极大地超越了时空阻隔。可喜的是,从上世纪八九十年代,一大批有识之士已经率先意识到数字化技术的强大功能,意识到古籍数字化将是古籍保存和利用的必然趋势,并着力于开发数据库,通过原件扫描或缩微胶卷扫描的方法以及光盘等媒体进行开发。例如,文渊阁的《四库全书》电子版、“中国基本古籍库”、南京图书馆建成的“馆藏古籍书目(草目)数据库”、美国普林斯顿大学图书馆开发的“中文古籍善本书目数据库”等。这些主要针对汉文古籍的数字化。可见,汉文古籍的数字化已经有了一些思路和产品。

少数民族古籍的数字化从上世纪90年代开始起步,也已获得一些成果。但这离不开纸质版资料,诸如黄润华、屈六生主编的《全国满文图书资料联合目录》(1991年,书目文献出版社出版),《中国蒙古文古籍总目》(上、中、下)(2000年,北京图书馆出版社出版)等均为建立少数民族文字古籍数据库奠定了基础。(3)国家科技社会公益研究项目“民族文字古籍文献数字化保护技术应用研究”主要针对藏文、蒙文、维文古籍文献提出民族文字古籍文献数字化保护方案,制定民族文字古籍文献数字化的相关技术标准和规范,并搭建数据库,建立民族文字古籍数字化保护技术网络平台,最终实现信息共享。内蒙古自治区计算中心开发了“蒙古文、汉文、西文操作系统”等。针对少数民族古籍进行的数字化过程,前期主要以建设全文数据库、目录数据库、图像数据库等资源性的数据库为基础。目前大多通过数码拍照、图像扫描等信息技术采集少数民族古籍图片,再通过SGML、XML标记语言对其进行描述,以便后期进行检索。此外,还提出利用双层PDF技术,对图片进行OCR识别建立文本,文本上的每个字符与图片对应字符的坐标位置产生映射关系,在此基础上,在文本层检索字符,反色显示到图片中的相应位置,从而实现全文检索(4)

信息技术的迅猛发展,导致了大数据时代的到来。大数据具有“大容量、种类多、流动快、价值高”的含义。(5)在《大数据时代:生活、工作与思维的大变革》一书中,作者指出大数据具有三个特点,第一是全面性,第二是模糊性,第三是由探求因果关系,转向事物相关性的寻找,要让数据自己发声;建立在相关关系的分析基础上的预测是大数据的核心。从大量不确定的信息中找出有价值的信息是大数据时代的特征。大数据时代下的少数民族古籍数字化发展前景将是:

近年来,少数民族古籍资源的保护引起了国家有关部门的高度重视。“国家民委少数民族古籍保护的资源信息中心”于2010年10月16日在中央民族大学正式挂牌。国家民委副主任丹珠•昂奔在挂牌仪式上表示,该中心将与国内外有关机构和专家进行广泛联系,开展密切合作,使中国少数民族古籍得到有效保护,并指出“数字化是古籍再生性保护的重要手段,代表古籍整理的未来方向”。该资源信息中心的成立极大地推动了少数民族古籍数字化事业。

少数民族古籍数字化技术的优势不仅在于有效地保护少数民族古籍的原件,更在于它可以开展学术研究、开发利用方面的交流和共享。但是,目前全国范围内缺乏权威机构统一领导、组织、协调、支持该工作,长期以来,很多单位都意识到少数民族古籍数字化工作是少数民族古籍未来的发展方向,并在小范围内做着力所能及的贡献,包括各大图书馆、博物馆、研究机构、企业等。他们自己制定了一些规范、标准,结果这些信息无法上网使用或应用范围太窄,以致很难实现共享,造成资源浪费。而且,少数民族古籍年代、地域的差距很大,地方特性较明显,例如云南红河县的彝文和武定县的彝文就有很大差别,彝文互相不通,即便读得懂彝文也辨不清意思,再加上少数民族古籍形式多样,有卷轴形式的、纸牌形式的、线装的等且开本有大有小,质地有绵纸的、有贝叶的等,因此,进行数字化保护必须建立通用的数字模型、规范的表达语言、统一的著录格式、标引方法,使少数民族古籍元数据描述规范化,并且实现少数民族古籍数字化转换、识别、发布、检索等技术标准的规范化,否则很容易造成信息的误读,很难提取出有价值的信息。未来要有一个统一规划,有组织、有计划地实施民族古籍数字化工作,从而提高资源的利用率,实现民族古籍市场的有序管理。在制定统一规范的基础上,下一步需加强组织、协调和经费保障等,从而在全局范围内实现民族古籍共享。

少数民族古籍数字化工作不仅要对书目、文字、图像、年代、收藏人、收藏时间等外在特征信息进行数字化,还要对实质内容、潜藏的知识和规律等内在信息进行数字化,最终通过显示技术准确、快捷地呈现给用户,方便用户进行查阅、检索、研究。将数据仓库技术引入少数民族古籍数字化过程中主要是进行知识库的构建,即对少数民族古籍文本信息内容进行深入分析,提炼出独立的信息单元和知识概念,并对其进行多级注释,根据信息单位和知识概念设计出民族古籍数字化文本数据库结构和数据模型,再通过数据ETL过程(即数据仓库技术,Extrace-Transform-Load抽取、转换、加载),将数据信息源清洗、转换、集成、整合到预先定义好的数据仓库中,成为未来数据挖掘的基础。对民族古籍进行数据挖掘,强调收集大量的、复杂的、模糊的、不确定的古籍信息数据,分析这些数据集合,从而获得有用的信息和知识,如查找董永的传本流变情况,可以通过挖掘技术很快提炼出东、南、西、北方的传本变异过程、情节模式类别等。数据信息便于总结出相关性,使得面向主题的全面信息的检索变得简单和可能。数据挖掘技术使得规律的寻找变得更加直观和触手可得。对少数民族古籍信息进行数据挖掘主要集中在文本源的研究。今后的少数民族古籍数字化开发“应设法努力在各个知识库之间建立更密切的关联,以便于研究者将各种统计结果相互结合、参照、对比,获得更大的思考和研究空间”,即在数字化技术的指导下,充分挖掘少数民族古籍文本信息,在正确的语义基础上挖掘新知识、新理论,使少数民族古籍的价值从资源供给提升到知识供给,这将是数字化技术在少数民族古籍领域的下一步发展方向。

少数民族古籍不仅具有宝贵的文献价值,而且还有文物价值。在目前少数民族古籍数字化过程中,其文物价值在建立数据库时已被确定、录入,录入信息中的质地、品相等则与鉴别人的经验、学识有很大关系。为了加强文物价值方面的准确性,采用虚拟技术将少数民族古籍的三维原貌显现在用户面前则是少数民族古籍数字化过程中的革命性事件,即采用数字仿真、三维建模、虚拟现实等技术对少数民族古籍进行数字化工作,达到最佳的空间视觉效果,追求虚拟现实影像的真实性、逼真性。将虚拟现实技术应用于民族古籍数字化过程中,主要可通过三种方式来实现:第一,使用相机从不同角度采集少数民族古籍的二维图形,然后用计算机图形学、Photoshop等图像处理技术、软件对二维图象进行处理、修复,在此基础上,采用视频加工软件Premiere将二维图像加工为逐帧动画,制作成影像。第二,运用三维建模技术及软件3D Max等构建民族古籍的相关信息,完成虚拟构筑,通过贴图、渲染等相关技术实现最真实的视觉效果,并转换成三维动画最终制作成影像。第三,用三维扫描仪可获取少数民族古籍的三维数据(如位置坐标等),工作人员再利用计算机对数据进行处理,最终形成一个完全逼真的原物影像。这些影像通过虚拟现实系统开发平台Virtuals,应用程序设计语言C++,可实现人机交互功能,最终将民族古籍全貌通过数字化虚拟技术淋漓尽致地展现出来。

从1956年全息影像技术诞生,到2014年7月17日全球首款全息手机在北京国家会议中心正式发布,全息技术正逐步融入我们的生活。将全息技术应用于民族古籍数字化过程中后,一本活灵活现的民族古籍将呈现在用户面前,并可以通过空中交互功能实现翻页观看。全息技术理论上可以分两步实施,第一步是利用干涉原理在底片上记录民族古籍光波信息,经过显影、定影等处理程序后,便成为一张全息图或称全息照片;第二步是利用衍射原理再现古籍光波信息,形成的图像立体感强,具有真实的视觉效应。由于全息技术在底片上记录下物体的全部光信息,而不像普通照相仅仅是记录物体的某一面投影,因此产生的视觉效应与观看实物时一模一样。

应用虚拟现实技术构建虚拟民族古籍,应力求真实性,且在任何时间、任何地点都可通过计算机及网络进行民族古籍原版的研究,这将是民族古籍数字化新的发展方向。

数字化技术的发展开辟了民族古籍有效保护、开发利用的新途径,民族古籍数字化过程亦将加速网络技术以更快的速度向前发展。近十多年来,由于互联网的蓬勃发展,IP地址的需求量愈来愈大,目前的IPV4已远远满足不了人们的生活需要。IPV4的地址位数为32位,也就是最多有2的32次方的电脑可连到互联网上,拟通过IPV6重新定义的地址空间,采用128位地址长度,它几乎可以不受限制地提供地址。IPV6实现以后,将一劳永逸地解决地址短缺的问题,实现传说中的“地球上每一粒沙子都会有一个IP地址”。IPV6技术的实现也必将使民族古籍有新的数字化发展前景。

少数民族古籍的受益面有限,不能完全市场化,其数字化过程应由相关高层部门作统一规划、组织、协调、经济支撑,科研机构、各大图书馆、博物馆、学校等配合进行方案制定、理论研究,由企业完成主要的技术支撑。目前,大陆古籍数字化的中坚企业主要有北京国学时代文化传播有限公司、北京爱如生数字化技术研究中心、北京书同文数字化技术有限公司等,它们都在中文古籍数字化方面作出了较大的贡献。少数民族古籍数字化过程是一项艰巨而复杂的工程,为完成这项工程,应走社会化协同合作之路,而且少数民族古籍数字化产品终将走向联合开发、分工协作的局面。

少数民族古籍数字化建设需要一批具有少数民族古籍相关学科背景,敏锐的现代信息意识及熟练的信息数字化技术的专业人员。要加强少数民族古籍数字化工作,必须加强培训并积极引进这方面的复合型人才,可对现有的民族古籍工作人员进行在岗培训,重点学习现代信息技术,也可委托有关民族院校加强少数民族古籍数字化技术人才的培养。(www.xing528.com)

大数据时代尽管给人们带来了更全面的信息,更先进的技术,更科学算法,但要使得数字化技术的作用得到充分的发挥,还面临着许多尚待解决的问题。

少数民族古籍存储较散、数量大,目前各地图书馆、档案馆、博物馆、研究机构等都是民族古籍的存储地,而民间个人散藏更是给普查增加了难度。囿于民族古籍的种类繁多:有卷轴装、纸牌、线装、贝叶等;且开本有大有小,版式不同,有横排的、竖排的,在进行数字化的过程中,为了方便共享和交流,方便在不同操作系统平台进行转换,数据库结构要统一,字段要确定,这样可能无形中会忽略不同地域的文化多样性和独特性。因此,如何既共享、整合、传播资源,又保持文化的多样性和独特性,是民族古籍数字化过程中存在的问题。(6)

数字化技术所开创的数字化空间也具有历史和现实的局限性。数字化技术是一把双刃剑,它在实现人类梦想的同时也给人类带来安全问题的挑战。一方面,数字化系统安全问题令人担忧,病毒感染、非法入侵、盗取数据等一系列破坏行为时有发生;另一方面,互联网的共享性本身就给安全问题带来隐患,传播内容的生产者分散于地球各个角落,从而使内容的把关难度明显加大。尽管目前可采取多种技术加强数字化产品的安全保护,例如加密、防火墙、入网控制、身份鉴别、分角色控制访问权限,以及在服务器上装载防毒模块,对网络进行病毒检测和病毒消除等,但这些安全技术给用户带来不便的同时也未必做到万无一失。再者,数字化技术的迅猛发展也使得安全技术必须长期、持续地进行更新工作。如何有效保护数字化产品,规范社会公德是数字化技术全面推行必须解决的瓶颈问题。(7)

信息处理领域,汉字处理、通信通常采用GB2312字符集,它通行于中国大陆,中国大陆几乎所有的中文系统和国际化软件都支持GB2312。而ISO/IEC 10646标准的发布,主要用来实现全球所有文种的统一编码,并解决不同的编码标准带来的转码问题。虽然ISO/IEC 10646涵盖的文种有朝鲜文、藏文、蒙古文(包括满文)、彝文、维吾尔文、哈萨克文、柯尔克孜文,但是少数民族古籍散藏于民间的较多,每个地域都有不同的方言。例如:四川彝文和云南彝文就有很大的差别,仅云南的彝文古籍就可分为7个部分,即滇南彝文古籍、武定禄劝彝文古籍、撒尼彝文古籍、阿哲彝文古籍、宣威彝文古籍、罗平彝文古籍、北部彝文古籍。(8)每部分彝文古籍都有不同的流传地域、不同的文献字体书写风格,要使国际统一的标准字库包括每个地方性语言,不太现实。字库不健全直接影响着少数民族古籍全文数据库的检索。

少数民族古籍的著录也比较复杂,一方面,民族古籍大多主题较多,书名晦涩或无书名,内容较杂无法准确标引内容、提炼主题,这就增加了判断民族古籍的困难;另一方面,一些收藏单位没有编制少数民族古籍目录,年代一久,面对一大堆的民族古籍资料便很难搞清楚收藏地点、收藏时间等重要信息,这也增加了编目著录的难度。

总之,少数民族古籍是中国古籍的重要组成部分,是中国55个少数民族智慧的结晶,是一宗珍贵的文化遗产。少数民族古籍数字化是将中国优秀的历史文化与当前最先进的科技完美结合的过程,它将成为数字化时代民族优秀历史文化传播、交流、共享、研究的一道亮丽风景线。

(1) 作者单位为云南省少数民族古籍整理出版规划办公室。

(2) 包和平、何丽、王学艳:《中国少数民族古籍管理学概论》,民族出版社2006年版,第10页。

(3) 包和平、何丽、王学艳:《中国少数民族古籍管理学概论》,民族出版社2007年版,第302页。

(4) 参见章杰鑫、潘悟云:《古籍数字化技术的新思路》,《语言研究》2014年第1期。

(5) 韩翠峰:《大数据带给图书馆的影响与挑战》,《图书与情报》2015年第5期。

(6) 相关研究参见万剑敏:《基于数字化技术视域下的乡村古迹保护研究》。

(7) 相关研究参见林毅红:《基于数字化技术视角下的非物质文化遗产保护研究——以黎族传统纺染织绣工艺为例》,《民族艺术研究》2011年第5期。

(8) 参见普学旺:《云南少数民族古籍及其抢救保护历程》,普学旺、李克忠:《云南民族古籍与历史文化研究》,云南美术出版社2013年版。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈