在计算机科学领域,数据指的是所有能够被计算机识别并分析的符号的介质总和,包括数字、字母和模拟量等。这些符号按照一定的顺序进行排列组合,有其实际的表达意义,是信息系统的基本组成单元。计算机系统一般应用二进制信息单元,以0和1表示。字节(byte)是数据的最小单位,每8个二进制组成一个字节,其进位关系是1024(2的10次方),如1KB换算为字节,是1024B。表1-1可以清晰地表示出数据的进位关系。
表1-1 数据进位表
(www.xing528.com)
以2014年为例,人类所有印刷出来的信息量是200PB,但从有语言以来,人类所说过的话的数据量是51EB。与之相对应的是,我们日常所用的个人计算机的硬盘容量以TB计算,但在一些领域,所产生的数据已经接近EB了。虽然关于多大量的数据才可以被称为大数据,学者并没有进行清晰的划分,但一般认为是在PB级别的数据集合。但数据量的单位不是判断这个级别的数据集是否为大数据的标准,其决定性因素在于计算机处理数据的效率能有多高。例如,20世纪60年代的计算机技术并没有充分发展,从当时的计算机处理水平看,处理MB级别的数据所花费的时间已经很长了。因此,现在大数据技术之所以成为发展的主要方向,关键在于计算机技术的发展,无论是在软件方面还是硬件方面,计算机处理数据的能力都有了飞跃式的提高。也是因为这个原因,相应的数据产生速度加快,造成了数据总量的爆发式增长。美国的一家科技公司EMC(易安信)所承接的主要业务是存储信息、管理产品和服务及针对技术问题提供解决方案。2014年4月9日,这家公司公布了第七份数字宇宙研究报告,这是业界唯一一份可以量化并预测每年产生多大数据量的研究报告。IDC(互联网数据中心)可以为ICP(互联网内容提供商)、企业、媒体、各类网站提供大规模、高质量且保障安全的多种业务,包括服务器托管、空间租用、网络批发宽带、ASP、EC等。通过IDC对相关数据的统计和分析,不难发现,无线技术、智能产品和软件研发等企业的出现是全世界数据极速增长的关键因素。同时,物联网技术的发展使得数据量每两年就翻一番,比如2019年的数据量是2013年的数据量的10倍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。