1.什么是大数据
对于大数据,研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)和较低的价值密度(Value)四大特征,简称“4V”,如图3-22所示。
图3-22 大数据的“4V”特性
(1)数据体量巨大
根据著名咨询机构IDC(Internet Data Center)做出的预测,人类社会产生的数据一直都在以每年50%的速度增长,基本每两年就增长一倍。这个预测被形象地称为“数据量摩尔定律”。这样的预测有望随大数据时代和人工智能时代的来临而打破。数据量的真实增长会是怎样的,只有明天才有结论,但是数据量大却是大数据时代牢不可动的第一标签。
(2)数据类型繁多
从数据产生方式的几次改变就可以体会到数据类型跟随时代的变革。大型商业运营阶段产生的数据类型多为传统的结构化数据。这些数据多为隐私性和安全性级别都十分高的商业、贸易、物流,以及财务、保险、股票等的传统支柱行业数据。而互联网时代产生的数据类型多为非结构化的电子商务交易数据、社交网络数据、图片定位数据,以及商业智能报表、监控录像、卫星遥感数据等非结构化和二维码像素数据。
互联网时代数据类型的改变也促进了新型数据库技术的大力发展,如NoSQL和NewSQL等数据库技术都得到了长足的发展,而这一切都是为了满足新数据类型的数据存储和高效利用的需要。IoT、人工智能时代的数据产生方式是多种多样的,其产生的数据类型也是多种多样的。
(3)数据处理速度快
大量的数据、繁杂的数据类型,必然要求较快的信息处理速度。近年来计算机核心处理单元CPU的综合信息处理能力呈现指数级增长。实际上,CPU运算速度的增长分为两个阶段:第一个阶段,行业的关注重点是单个核心主频的不断提升,单核心的CPU速度经历了飞速的发展期;到了21世纪初,再提高单核心的主频已经出现了很大的工业困难,并且从成本的角度也不再符合整个市场的需求,因此,行业领导者诸如Intel和AMD公司都把提高信息的处理速度的方式转变到多核心联动处理。
(4)数据价值密度低
数据量虽然巨大,但是人们关注的其中有用的信息却不容易被发现,这是大数据时代数据的一个很大特点。数据量级巨大,人们需要的有价值的数据资料和数据决策却难以得到,这就需要专业人员根据各自行业的需求,通过特定的技术手段和研究方法,在海量的价值密度极低的数据海洋里找到合适的数据集,经过具体可行的数据分析和挖掘方法去得到可以利用的高密度价值的数据,促进低密度数据的高价值信息提取,从而实现大数据的科学、合理利用。(www.xing528.com)
2.大数据的发展历程
从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终促使大数据的产生。
(1)运营式系统阶段
数据库的出现使得数据管理的复杂度大大降低,在实际使用中,数据库大多为运营系统所采用,作为运营系统的数据管理子系统,如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。
人类社会数据量的第一次大的飞跃正是在运营式系统开始广泛使用数据库时开始的。这个阶段的最主要特点是,数据的产生往往伴随着一定的运营活动;而且数据是记录在数据库中的,例如,商店每售出一件产品,就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。
(2)用户原创内容阶段
互联网的诞生促使人类社会数据量出现第二次大的飞跃,但是真正的数据爆发产生于Web 2.0时代,而Web 2.0的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长。
主要有以下两个方面的原因:
一是以博客、微博和微信为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。
二是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段的数据产生方式是主动的。
(3)感知式系统阶段
人类社会数据量第三次大的飞跃最终促使了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。
随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。
简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源,但其中自动式的数据才是大数据产生的最根本原因。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。