近年来,国外文化记忆机构和数字人文领域对“基础设施”建设的理论和实践研究不断增多。为了避免重复建设,连接信息孤岛,Peter K.Bol于2018年提出了联合建立“数字人文与中国研究的网络基础设施建设”的愿景。德国马普研究所的RISE项目,旨在通过定义一套标准化的API和元数据描述框架,构建整合汉学领域各种数据库和研究工具的基础设施,连接信息孤岛,实现一站式获取。“赛莎特全球历史数据银行”是一个跨领域的大型历史人文大数据基础设施,它采用关联数据技术,不仅试图解决多个数据集的一站式获取的问题,还试图解决跨领域的数据互联问题。赵生辉提出了档案界应参与“国家数字人文基础设施建设工程”的规划。刘炜等人深入地探讨了数字人文研究基础设施的定义、构成,以及如何建设数字人文基础设施等问题,并对建设面向人文研究的国家数据基础设施提出了意见和建议。“基础设施”被认为是连接信息孤岛、实现资源共建共享的有效途径。
但是,到底什么是数字人文研究的“基础设施”?基础设施一般是指为社会生产和居民生活提供公共服务的物质工程设施,是用于保证国家或地区社会经济活动正常进行的公共服务系统,包括交通、邮电、供水供电、商业服务、科研与技术服务、园林绿化、环境保护、文化教育、卫生事业等市政公用工程设施和公共生活服务设施等。当信息技术成为人们工作和生活不可或缺的一部分后,“信息基础设施”的概念应运而生。信息基础设施主要指光缆、微波、卫星、移动通信等网络设备设施。2002年,美国国家科学基金会(National Science Foundation,NSF)提出了网络基础设施(cyber infrastructure,CI)的概念,认为新技术的发展,尤其是网格计算技术的发展,将推动建立一个全球性的“网络基础设施”,并在此基础上建立新型的科学与工程知识环境和“虚拟组织”,使研究者以全新的方式、更高的效率来从事研究。刘炜等人认为“数字人文的基础设施是一种支持人文科研活动的基础设施,是指在数字环境下为开展人文研究而必须具备的基本条件,包括全球范围内与研究主题相关的所有文献、数据、相关软件工具、学术交流和出版的公用设施及相关服务等”。这个定义站在建立国家层面的人文研究基础设施的高度上,不仅涵盖了文献、数据和软件工具,还将学术研究、交流和出版的公用设施也囊括其中。对于图情机构来说,应积极参与面向人文研究的基础设施建设,也应找准自身的定位和重点,结合资源优势和专业优势,集中精力进行数字化文献的数据化,在实现从文献服务到知识服务的转型的同时致力于“数据基础设施”建设,建立数据采集加工、清洗转换、编码存储、共建共享、传输交换的标准规范和协议,促进跨机构的资源整合、跨领域的知识融通和跨网域的开放获取。近距离倾听研究者们的需求,深入了解不同领域典型的需求场景,切实地做好大范围、长时间、细粒度、多维度的数据支撑和服务。
图情机构的“数据基础设施”建设,注重的不仅是传统馆藏资源的数字化、文献服务的有序化,更强调文献内容的数据化以及数据间逻辑联系的形式化(机器可读),充分体现了数据规模大、覆盖时间长、地域范围广、描述粒度小、维度多等特点;同时强调跨机构的数据互联、跨领域的知识融通和跨网域的开放获取。将“数据基础设施”从“研究基础设施”中分离出来,有助于图情机构找准自身定位,集中精力于数据建设和数据服务。(www.xing528.com)
与“数据基础设施”配套的是开放数据服务,图书馆参与数字人文项目建设往往从特色库建设入手,在建设特色库时,如果考虑到既将其作为独立的资源库为特定用户群体提供文献服务和知识服务,同时又作为“数据基础设施”的有机组成部分,那么就需要考虑库与库之间的数据互联和数据交换问题。同时,任何一种基础设施都有为公众提供的即插即用的开放接口,“数据基础设施”也不例外,但更进一步的要求是,不仅能为人提供文献服务和知识服务,还能提供面向机器的开放数据服务,允许个人、第三方机构、社群和团体通过调用开放数据服务的接口,按需获取部分或全部数据,整合到其他系统或应用于不同的需求场景中。近年来,上海图书馆基于十几个数字人文项目所建设的互相连通的数据集和建立于其上的开放数据服务,连续三年举办了三届开放数据应用开发竞赛,目的是面向全社会征集以上图数字人文平台数据为基础的优秀产品原型或创意,以期更加充分地释放数据的价值,最大程度挖掘数据背后的应用潜力,甚至改善和丰富已有数据的方法和技术,真正实现数字人文作为一种新的人文知识生产方式,而非仅仅是辅助人文研究的工具。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。