近年来,随着互联网、物联网的快速发展,数据量也与日俱增;同时,随着云计算、人工智能的兴起,数据实时准确的分析成为可能;这些都使得大数据成为了当下最热门的科技词汇之一。那么,什么是大数据?大数据到底有多“大”?严格来讲,大数据是一种涉及数据的收集、存储、分析、处理,从而提取数据背后价值的综合性技术,它不仅包括海量的数据本身,还包括对这些数据的处理和应用。
大数据通常被认为具有如下四个特点:大量(Volume),多样(Variety),高速(Velocity),价值(Value)。由于这四个特征的英文首字母都是“V”,所以通常被称为大数据的“4V”特性。
大量(Volume):量大是大数据最显著的特点,也是很多人对于大数据最直观的感受。根据IDC发布的《数据时代2025》白皮书中的统计,2018年全球的数据量大约是33ZB,对此的直观比喻:33ZB≈354亿TB,每天产生的数据量大概为9700万TB,家用电脑的硬盘容量一般是1TB,也就是说每天需要用9700万台电脑来存储所产生的数据。而且随着物联网的兴起,到2025年每年产生的数据量预计可以达到175ZB,如下图所示。
全球数据量的每年规模(www.xing528.com)
多样(Variety):即大数据的来源、数据类型的多样性。例如,大数据可以来源于物联网的传感器,也可以来源于天网的视频数据,以及阿里巴巴或上海股票交易所的交易数据,还可以是文档、视频、音频等数据类型,甚至也可以是图片数据。所有数据通常可以被划分为结构化数据(即数据间有较强的因果关系,如刚才提到的各种信息系统产生的数据)、非结构化数据(即数据间通常没有因果关系,如视频、音频、图片数据)和半结构化数据(即数据间有较弱的因果关系,如邮件、HTML文档数据)。严格说来,所有数据最终都必须转化为结构化数据,目前只有结构的电子数字计算机才能使用、运算。
高速(Velocity):即大数据的传播速度和对海量数据的实时处理。大数据是通过互联网传播,所以比传统的报纸、广播传统数据载体传播速度更快。同时,由于每时每刻都会产生海量的数据,而因为成本的关系,不可能将所有数据都永远保存下来,我们通常只会保留处理和分析那些比较重要的数据或者是最近一段时间的重要数据。因此,我们需要及时对海量的实时数据进行分析和处理,从而最大限度地提高数据的利用价值,避免数据的浪费。
价值(Value):大数据的最终目标就是利用多种先进技术,发掘出海量数据中隐藏的规律和价值,更重要的是挖掘出产生这些海量数据的实物场景隐藏的关系,这些关系不是依靠现有知识体系能推演出的逻辑关系、因果关系,更多的是一种隐藏较深的关联关系、统计关系。例如,啤酒与尿片的经典案例,美国沃尔玛超市管理人员发现看似不相干的啤酒、尿片两种商品大量存在于同一个购物车中,通过数据分析发现,这是年轻的球迷父亲既要照看小孩,又要看球时所隐藏的销售逻辑,从而帮助管理人员做出将这两种商品摆放在相邻区域的促销策略。这也是大数据最核心的价值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。