首页 理论教育 信息技术基础:深入了解大数据概述

信息技术基础:深入了解大数据概述

时间:2023-11-22 理论教育 版权反馈
【摘要】:国务院在2015年8月31日印发了《促进大数据发展行动纲要》,该纲要明确指出了大数据的重要意义和主要任务,同时指出大数据已经成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径。从上文中大数据白皮书给出的国内对大数据的理解阐述中我们已经初步窥探到了大数据的特征。数据处理的速度成为大数据重要价值体现的特征之一。

信息技术基础:深入了解大数据概述

大数据(Big Data)作为当前最受瞩目的技术之一,受到了来自科学、技术、资本、产业等各界的追捧和青睐。2013年11月,ITU发布了题为《Big data:Big today,normal tomorrow》的技术观察报告,该报告分析了大数据的相关应用实例,指出了大数据的基本特征、应用领域以及面临的机遇与挑战。2014年12月2日全国信息技术标准化技术委员会大数据标准工作组正式成立,下设7个专题组,分别是:总体专题组、国际专题组、技术专题组、产品和平台专题组、安全专题组、工业大数据专题组、电子商务大数据专题组,负责大数据领域不同方向的标准化工作。国务院在2015年8月31日印发了《促进大数据发展行动纲要》,该纲要明确指出了大数据的重要意义和主要任务,同时指出大数据已经成为推动经济转型发展的新动力、重塑国家竞争优势的新机遇、提升政府治理能力的新途径。2015年12月,中国电子技术标准化研究院在工业和信息化部信息化和软件服务业司、国家标准化管理委员会工业两部共同指导下编纂发布了《大数据标准化白皮书V2.0》,在援引了多家权威机构、知名企业的定义后,给出了国内对大数据概念的普遍理解:具有数量巨大、来源多样、生成极快、多变等特征,并且难以用传统数据体系结构有效处理包含大量数据集的数据。

本书采用目前国内外最为广泛接受的定义:大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

那么,想要驾驭这庞大的数据,我们必须要了解大数据的特征。从上文中大数据白皮书给出的国内对大数据的理解阐述中我们已经初步窥探到了大数据的特征。事实上,对于大数据的数据特征,通常引用国际数据公司(International Data Corporation)定义的4V来描述,而随着近年来大数据的不断发展,大数据的特征也得到了拓展。IBM在2013年3月给出的《分析:大数据在现实世界中的应用》白皮书中将原有4V中的value(价值密度)替换成了Veracity(真实性),以此来凸显与管理某些类型数据中固有的不确定性的重要性,得到了业界的广泛认可。之后,阿姆斯特丹大学的Yuri Demchenko等人基于原有4V的基础上拓展为5V的理论,即增加了Veracity(真实性)。因此,本书认为大数据发展到今天,特征为5V,具体如下。

(1)Volume(数据体量大)

当前数据规模从TB单位发展提升到PB,更大级别的为EB单位。其中1 024 GB=1 TB;1 024 TB=1 PB;1 024 PB=1 EB;1 024 EB=1 ZB;1 024 ZB=1 YB,从以上公式换算中我们可以感受到数据单位的体量大小。如果以人类语言量大小为单位,我们所统计出来的人类历史至今的语言量为5 EB。相对于传统系统而言,显然大数据系统的容量是海量的,并且,在特定情况下,数据量还会出现波动和急剧增长的情况,这就要求大数据处理系统具备强大的数据存储和处理能力。

(2)Variety(数据种类多)

除了一般意义上的结构化数据以外,大数据还包括各类非结构化的数据,如文本、音频、视频等,以及半结构化数据,如电子邮件、文档等。数据结构的多样性与复杂性大大提升了数据处理的难度,对系统软硬件提出了更高的要求。如何根据数据结构特性,选配合适的硬件设备,制订出合理的数据结构预处理方案,是当前研究的重点之一。(www.xing528.com)

(3)Value(价值密度低)

虽然大数据包含的数据量庞大,但是在这复杂多样的海量数据中真正有价值的数据占比却很少,即大数据的数据价值密度低。例如,我们对于视频数据的采集和发掘比较费时,对于一个小时的视频内容,我们采集、监控和挖掘需要很多时间,但真正有价值需求的数据却很少。那么,如何通过特定的机器算法和软件算法找到需要的数据是相应处理系统的关键技术之一。

(4)Velocity(处理速度快)

对于大数据和传统海量数据最大的一个区别就是数据体量和对数据处理的速度。大数据要求对数据的实时处理速度很高,因为若不具有工业级实时处理能力,在实际应用中就不具有时效性,这就对计算机软硬件的要求都很高。我们传统的对数据运算计时单位分别是星期、日和小时,而在大数据时代计时单位下降到了更短的周期,分别以分和秒来计量。数据处理的速度成为大数据重要价值体现的特征之一。

(5)Veracity(真实性)

在大数据的时代背景下,各行各业的组织都积极参与到信息化管理的浪潮中,各种信息都被收集并录入相应的数据仓库以供处理,在这个过程中,就会由于手误导致信息录入错误、消费者由于各种原因不愿意录入真实的意愿等虚假信息掺杂其中。那么,在海量的、庞大而繁杂的数据中,如何对数据进行真伪的识别,对大数据的可信性提出了新的要求。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈