1.趋势描述
大数据出现被誉为第四次工业革命(“工业4.0”),即智能化生产中的关键技术,成为当下产业创新发展的核心驱动力。2015年9月国务院公布《促进大数据发展行动纲要》,使大数据成为中长期国家战略,我国将大力培育大数据应用新产业,推动经济和社会现代化。大数据当然不是指数额巨大的个体数据,它指的是数量巨大、结构复杂、类型众多的数据构成的数据集合,无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理。一般来说,大数据具有四个特征,简称为4V。
(1)Volume:数量巨大。大数据经常达到TB(1 TB=1024 GB,一台电脑的容量一般是500 GB)、PB(1 PB=1024 TB)乃至EB(1 EB=1024 PB)的数量级。比如截止到2012年,人类历史上生产的所有印刷材料的数据量是200 PB,人类历史上说过的所有话的数据量大约是5 EB。
(2)Variety:多样化。数据类型多,不同的来源、不同的结构、不同的层次的数据具有极大的差异。这就意味着处理大数据的手段非常烦琐和复杂。没有一定的技术手段,是无法对大数据进行处理的。
(3)Velocity:速度快。在信息大爆炸时代,每时每刻都会产生海量数据,所以,数据一直都在飞快地变化着,前一秒的数据已经不能拿来评估下一秒的决策。这就要求处理大数据的速度也要快,否则旧的大数据还未处理完,新的数据又产生了。这样就无法全面挖掘数据的真实价值。
(4)Value:价值密度低。大数据的价值密度低,每个单独的数据看起来没有什么价值。只有将它们整合在一起,才能凸显出巨大的价值。(www.xing528.com)
综上所述,大数据是基于云计算的数据处理与应用模式,通过数据的整合共享和交叉复用形成的智力资源和知识服务能力,这也正是大数据的价值所在(见图1-1)。
图1-1 “大数据”的特征与价值
2.大数据分析和运用
从技术角度看,大数据由一整套原创的新技术(如高扩展性的数据库、高级数据可视化技术和高性能搜索引擎)以及更成熟的技术(如事件驱动处理、商业智能和数据挖掘)融合而成。通过数据集中整合、挖掘分析、展示应用,为客户提供智能化、个性化服务。通过挖掘分析,运用数量模型分析方法,发现数据背后的规律,发掘市场机遇和客户需求。大数据创新了商务智能,极大地提升了智能化服务水平。但是大数据的普及和运用还存在不少障碍。
大数据的一个关键要素是采用最新的Hadoop技术,这种开源处理框架能将大的分析查询分解为多个平行运行的小的分析查询,然后将结果重组为一个数据集。因为当前这种技术的供应不足,大多数Hadoop项目都是实验性的,在国内还罕有真正的生产环境。其次是统计师们技能的缺失,大数据的崛起让统计师们将对业务某种程度的理解等整合到企业中,把自己打造成数据分析师。数据分析师的工作是将来自不同数据集的数据汇聚到一起,从中发现规律、洞察趋势。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。