20世纪60—70年代,大数据作为专有名词源于数据密集型科学研究。21世纪以来,大规模数据出现在科学领域以外,呈爆发式增长。2011年,国际数据公司(IDC)和麦肯锡全球研究院(MGI)等商业机构通过研究指出了大数据的潜在巨大价值。随后,国际商业机器公司(IBM)、微软(Microsoft)、甲骨文(Oracle)等全球知名IT企业快速跟进,提出了大数据的4V特征——海量(volume)、快速(velocity)、多样(variety)和价值(value)。
大数据是当今最流行的话题之一,其应用几乎遍布所有领域。制造、金融、零售、健康、教育和政府等都在收集所谓的“大数据”,图情领域同样如此。当然,这样做的最终目的是利用这些数据提供新的有用服务。那么图情领域的大数据到底是什么呢?它与一般的大数据有何区别呢?
1)图情数据规模庞大
一般认为,大数据是指数据集的大小超出了传统软件工具采集、存储和处理数据的能力。但是,大数据的实际大小是不断变化的,范围可能从几十太字节(TB)到数拍字节(PB)。本质上,大数据是指对实际数据的处理提出了艰巨挑战的那些数据。大数据的特点通常还侧重于交叉领域的数据集,而不是隔离的数据。大小有限的数据可以与其他数据结合在一起,以提供有用的信息。而且,被认为是“大”的规模可能还取决于领域的特性。
通常人们认为图书馆的馆藏是有限的,因而图情大数据不能称为“大”数据。但是,有组数据却从一个侧面显示了图情领域数据的规模。据中国国家统计局统计,2018年中国公共图书馆机构数为3 176个,总藏量10.37亿册,当年购买的报刊113万种,累计发放有效读者证7 263万个,图书流通8.2亿人次,组织各类讲座、展览、培训班合计17.9万次,参加人数达1.1亿人次。
图书馆馆藏还与链接的数据紧密相关,链接的数据形成了更大的大数据网络。大英图书馆研究了图书馆馆藏的链接数据,并试图对与图书馆馆藏有关的人员、事件和场所进行建模。美国国会图书馆也做了类似的工作。
有学者认为,在数据的聚合期间,可以从图书馆馆藏中创建数据模式。例如,可以根据书籍或期刊轻松地提取来自合著者、引文、地理位置、日期、命名实体、主题分类、机构隶属关系和出版商的关系,这些关系可以与其他作品、人员、专利和事件等关联。这类数据也可以被看作是大数据。
另一方面,图书馆还可以收集用户搜索或使用图情数据的数据,并且这些数据的容量类似于互联网数据。随着收集量的增加和收集属性数量的增加,它可以更快地提取并分析隐藏在数据中的模式。图情领域中的“大数据”可以以多种方式使用,例如提高可用性,帮助用户找到有趣的应用模式。
因此,图情大数据理所当然可以归为“大”数据,因为它既有数百年来收集的数据,又有专门的链接和元数据等研究数据,此外还包括用户与信息之间的交互数据。
2)图情数据结构复杂多样
图情领域大数据的特点还体现在数据的多样化。图书馆中的各种设备和个人智能终端无时无刻不在形成多维度(如资源信息、地理位置和时间、用户行为、社交媒体等)数据,这些数据不仅包括书籍、期刊、报告、笔记、地图、电影、图片和音频等各种资源的结构化元数据,还包括网络及互动交流中产生的音频、视频、图片、文本等半结构化或非结构化数据。据美国国际数据集团(IDG)研究,全球非结构化数据每年将增长62%,到2022年将有93%的数据是非结构化的。若照此发展,图情领域的大数据将变得更加复杂和多样。
当然,除了数据格式的多样性外,图书馆还收集用户在与系统和服务交互时创建的大量使用情况和交易数据。此类数据传统上不会保存在图书馆中或由图书馆馆员管理,但若进行分析则可以改善图书馆服务。图情领域充斥着这类数据,并且唤醒了可以从当前大量非结构化数据中提取的潜在价值。因此,大数据的多样性特征也同样可以在图情数据中找到。(www.xing528.com)
3)图情数据更新不断加快
据统计,全球每1秒会有60张Instagram手机软件拍摄的照片被上传;每1分钟,会有60小时视频被传到Youtube上;每1天,搜索引擎产生的日志数量是35 TB。这些数据生成的速度之快已大大超过传统信息的产生,且这一趋势还在加速。图情领域的新数据也同样在快速增长。图书馆通常会在地理位置分散的服务器和磁带上维护文献的多个副本,因此,组织之间和内部都存在数据的流动。用户对图书馆服务速度的期望也提高了:几十年前,人们在图书馆内通过纸笔检索借阅图书,如今的图情用户可以在计算机或智能终端上打字以浏览和保存资料,这只需要几秒;几十年前,只有有限数量的人可以获得图书馆的现场服务,但如今更多的用户可以同时远程访问图书馆网站。因此,馆藏的流通速率很高。以美国国会图书馆为例,其内容传输服务(CTS)系统的数据量在2014年增加了787 TB,平均每天增加2.2 TB。如果换算成纸质图书的话,相当于每天新增1 000部《四库全书》。
4)图情数据还存在一些缺陷
(1)数据的组织性较差
在普通用户看来,图书馆中的书籍、期刊等数据井井有条,因为用户可以使用分类法来查找所需内容。但是,对于图情领域的研究数据,情况则有所不同。图情领域的研究数据似乎杂乱无章,描述较少,而且格式不适合长期重复使用。研究人员习惯用自己的方式来生成这些无组织的数据,但这些数据通常由项目来管理,一旦项目完成了文章或报告的发布,研究数据通常就被锁定在无组织的文件夹中。然而,恰恰是这些研究数据,是图情领域数据分析中不可或缺的部分,因而显示出了与众不同的价值。
(2)非标准的数据和数据格式
由于图情数据包含了各学科研究的数据,这些数据通常缺乏统一的标准和格式。尽管其中少数学科可能已经创建了数据标准,例如对临床医学数据的研究,但是在大多数学科中,很少有数据标准,尤其是对于那些个性化的研究:即每个研究人员可以自己定义对项目很重要的参数;即使对于同一位研究人员,不同的项目也可以使用不同的格式来收集数据,这给数据聚合和数据处理带来了困难。
(3)相同信息的多重编码
在图情领域中,将同一语言文字翻译成其他语言是常见的现象,并且通常是多种版本。虽然大数据处理主要集中在从大数据中提取语义信息,但是语义内容的重复在其他大数据研究领域中很少见,并且在相关工作中尚未提出如何合理地处理语义内容。
总而言之,由于图情数据的规模巨大、结构多样、更新快速,可以毫无疑问地将其视为大数据。此外,图情数据通常组织性较差、缺乏标准和独特的格式,而且信息重复,这与其他领域的大数据形成鲜明区别。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。