首页 理论教育 数字人文与图情大数据

数字人文与图情大数据

时间:2023-08-08 理论教育 版权反馈
【摘要】:“数字人文”是近年来随着各种新型数据技术,尤其是大数据技术在人文社科领域的深入应用而兴起的横跨技术和人文的跨学科领域,是由人文大数据驱动的一种新的人文研究范式。数字人文不仅吸引了大量的人文社科学者的参与,图书馆、情报所、档案馆、博物馆、美术馆等文化记忆机构作为数字人文的基础设施,也被数字人文的风起云涌席卷其中。当下数字人文的蓬勃发展与大数据在人文社科领域的广泛深入应用密切相关。

数字人文与图情大数据

“数字人文(digital humanities)”是近年来随着各种新型数据技术,尤其是大数据技术在人文社科领域的深入应用而兴起的横跨技术和人文的跨学科领域,是由人文大数据驱动的一种新的人文研究范式。数字人文不仅吸引了大量的人文社科学者的参与,图书馆、情报所、档案馆、博物馆、美术馆等文化记忆机构作为数字人文的基础设施,也被数字人文的风起云涌席卷其中。

关于“数字人文”的定义,由于其还在快速发展之中,尚未有定论。早期的人文学者将其定义为“一套提出、重新定义和回答学术问题的办法,即人文学者可以利用数字技术(尤其是电脑数据库)作为外在的工具,来回答他们过去已经提出的学术问题,或者是受到数字技术和思维的影响而提出新的课题,甚至产生新的研究范式”。随着大数据、语义网、机器学习、GIS、数据可视化、VR/AR等技术被广泛深入地应用于人文社会科学的研究过程中,更好地支持基于大规模数据、事实和知识的量化研究和循证实践,催生了文本分析法、社会网络关系分析法、空间分析法等新型研究方法,引入了遥读、开源、众包等理念,数字人文已经被认为不仅仅是作为辅助人文研究的方法和工具,它革新了人文社科领域的知识生产方式、研究范式和交流模式,对促进跨领域的对话、弥合学科之间的界线起到了积极的作用,同时对提供研究基础设施的图书馆、情报所、档案馆和博物馆的资源收集、保存、组织和服务提出了新的需求,也带来了新的挑战和机遇。

当下数字人文的蓬勃发展与大数据在人文社科领域的广泛深入应用密切相关。数字人文的发展经历了数个不同的阶段,早期的数字人文被称为“人文计算”,主要是利用计算机的工具和手段对人文资料进行编目、索引、数字化,以辅助人文研究者收集、保存、检索和查阅更多的资料。以20世纪中期的Roberto Busa神父和IBM 合作的“阿奎那项目”为代表,其主要使用基于穿孔卡和磁带存储的计算机对古典文本进行语汇索引、作者身份界定等文本分析研究工作。随着计算机的普及,越来越多领域的人文学者与计算机工程师联合起来,主要致力于语料库建设,以及对文本创建、维护和存储方面的程序联合开发与推广。到了21世纪前后,随着图书馆、情报所、档案馆和博物馆等文化记忆机构中保存大量人类过去文献资料的数字化,以及互联网对人们工作生活各个方面的渗透,人类历史资料的数字化内容规模空前,原生数字化内容的生产变得空前方便和容易,人文学者不得不面对越来越巨量的信息海洋,以及媒体类型多样、来源不同、格式各异、结构化、半结构化和非结构化并存的海量数据。(www.xing528.com)

大数据技术对数字人文的贡献不仅是有能力处理大规模、多媒体、多来源、多格式的数据,更重要的是:一方面,在历史上,人文研究一直对有限的数据集进行精细的分析,而以海量存储、云计算、分布式计算为基础的大数据技术,使得获得某一研究问题或研究领域的所有数据而不是随机样本成为可能,更大的数据集能提供更易被验证的结论,人文研究具备了更多的科学性。而大数据重视的不是精确性而是混杂性,关注的不是因果关系,而是相关关系,这也帮助人文学者得以在宏观的层面理解概念、规律和趋势。另一方面,当数字化对象完成了数据化,当文字、图像、音视频资料,甚至沟通和交流活动都变成了数据,那么一切都可以量化。这对以归纳、推理、演绎、叙述为主要手段的传统人文研究,造成了颠覆性的影响。在此基础上发展了革新人文研究范式的文本分析法、词频统计法、空间分析法、时序分析法、社会网络关系法等新型研究方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈