信息技术是管理和利用信息所采用的各种技术的总称。信息技术在经历了计算机时代和互联网时代之后,已逐步向物联网时代过渡。过去,信息技术的发展造成了信息鸿沟和信息过载。而如今,信息的原生状态——数据,呈快速爆炸式增长。在全媒体“泛在化”技术条件下,由键盘、传感器、摄像头、话筒监听器、手机等移动终端所采集,经由互联网、物联网和各种通信网络传播的数据,其数量和复杂程度都超出了常规处理能力。大数据便在这一背景下应运而生。信息技术发展各阶段的描述如表1-1所示。
表1-1 信息技术发展阶段
长期以来,人们一直在讨论图书馆学、情报学和信息科学之间的区别,以及这些领域如何与计算机科学相重叠和区分。如今,“数据科学”随着大数据一词而兴起,并对其与这些研究领域之间的关系和不同之处提出了新的疑问。在一般层面上,图书情报学涉及信息的产生、流动、使用和保存;计算机科学处理用于计算过程的算法和技术;数据科学则作为一种概念将现有的测量、表示、解释和管理研究应用于解决问题。由此来看,这些学科是在信息技术发展的不同阶段所产生的。
1)大数据的早期研究
关于数据如何变大的故事开始于当前围绕大数据的“嗡嗡”声之前很多年。早在70年前,研究者就尝试量化数据量的增长率,或者通常被称为“信息爆炸”(1941年牛津英语词典首次使用的术语)。“大数据”概念的演变与数据或信息爆炸有着密切的关联。
1944年,维思大学图书馆馆员Fremont Rider出版了《研究型图书馆的学术和未来》一书。他估计美国的大学图书馆的规模每16年翻一番。鉴于这种增长率,Rider推测2040年的耶鲁大学图书馆将拥有大约2亿册图书,这将占据超过约1 600 km的货架……需要超过6 000位编目人员。(www.xing528.com)
1961年,Derek Price出版了《自巴比伦以来的科学》,他通过研究科学期刊和论文数量的增长来描绘科学知识的增长。他的结论是,新期刊的数量呈指数增长而非线性增长,每15年翻一番,每半个世纪增加一倍。Price称之为“指数增长定律”,意思是“每次科学进步都会以合理不变的出生率产生一系列新的进展,因此,在任何给定的时间出生人数与发现人数的大小成正比。”
由此来看,针对“大数据”的早期研究很可能就来自图情领域。
2)图书情报学与数据科学的关系
在发展的早期阶段,数据科学与任何新兴领域一样,都是从现有知识库中汲取理论和实践。图1-2说明了数据科学是如何基于四个关键领域而产生的。这四个领域包括不同但相关的三个领域(图情科学、统计学和计算机科学)和代表不同知识领域的一般科学。美国北卡罗来纳大学教堂山分校信息与图书馆科学学院的Marchionini教授以其所在学院的教师学科背景为例:信息学院的教师中有四分之一拥有计算机科学博士学位,而其他人则拥有社会学、教育学、物理学、管理学或图书情报学领域的学位。
图1-2 数据科学的基础
一般科学知识领域消耗最多的数据科学家,并且每个领域都会极大地影响收集的数据类型以及基于分析的决策。来自各个领域的化学家、政治学家、医师、新闻工作者、会计师和学者将采用并改编由数据科学家创建的工具和技术,其中许多专业人员希望专门研究各自领域的数据科学。学科背景决定了要收集哪些数据,哪些是对于理解数据最重要的元数据,如何确定数据质量以及分析结果的价值。任何数据科学培训计划都必须考虑如何将领域专业知识纳入课程中。
这里暂且不讨论统计学和计算机科学对数据科学的影响,主要谈一下图书情报学与数据科学之间的关系。当前,图情领域正在研究用于数据收集的体系结构和本体,包括:数据资产的照管;信息伦理和政策;知识的产生、流动和保存;人类信息互动;信息科学原理;信息在健康领域的实践(健康信息学);信息在人文科学领域的实践(数字人文科学);信息在商业领域的实践(金融信息学);信息在法律领域的实践(法律信息学);信息在环境领域的实践(环境信息学)等。如上所述,图情领域的专家关注整个数据生命周期以及与数据收集和使用相关的社会文化问题。因此可以说,数据科学是图书情报学的一个子集,并且某些数据科学培训计划可能就在图书情报学中。但是,将图书情报学视为数据科学的基本组成部分则更具战略意义,这样,新兴领域才能从跨学科合作中受益。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。