首页 理论教育 大数据服务与云计算之间的关系

大数据服务与云计算之间的关系

更新时间:2025-01-07 工作计划 版权反馈
【摘要】:[20]10.2.4.3大数据服务大数据的处理过程是指运用大数据处理技术和工具,对广泛异构的数据源进行抽取和集成,按照一定的标准统一存储,进一步运用合适的数据分析和计算工具,从存储的数据中挖掘出有价值的知识,并使用恰当的方式将结果展现给终端用户。

10.2.4.1 大数据服务与云计算之间的关系

云计算是通过服务封装各类IT资源(如存储、计算等资源),为用户提供按需接入、按需付费、无限扩展的资源使用方式。云计算在资源使用和管理模式上对构建大数据服务表现出了极大的潜力和优势,主要体现在以下两个方面[20]

(1)按需分配(on-demand)和按使用量付费(pay-as-you-go)的IT资源使用模式降低了大数据处理和构建大数据服务的门槛,便于实现低成本的大数据服务。[20]

通过大资源的服务化,云计算为用户提供了IaaS服务、PaaS服务和SaaS服务,实现了硬件资源和软件资源的按需获取、弹性扩展、随用随付。为满足大数据处理需求,用户既可通过使用IaaS提供的基础设施资源(如Amazon EC2、Flexiscale和阿里云等),实现大数据服务相关的数据存储、平台开发、算法设计、软件实现,也可使用现成的PaaS提供的软件开发平台服务(如Google App Engine、Microsoft Azure、Forceplatform等),实现算法设计和软件开发,还可直接调用或销合现成的SaaS服务(如Google的BigQuery、Gmail、Salesforce.com等),组合服务的形式构建大数据服务。目前,这种按需付费的方式为外部用户提供虚拟机资源和软件平台资源的方式,用户不再需要构建和维护自己的基础设施,通过按需调用的形式随时随地获取所需资源,降低了大数据处理的门槛,节省了大数据服务构建所需的高昂投入和维护成本,有利于实现低成本的大数据服务。[20]

(2)云计算的发展过程中,催生了一系列大数据处理技术和工具,为大数据服务开发过程面临的大数据处理和分析提供了技术参考,降低了大数据服务的开发难度,减小了大数据服务的开发周期,进而提升了大数据服务带来的价值回报。除了云计算为大数据提供的丰富基础设施、开发平台等云资源服务外,还催生了一系列大数据处理技术,其中最具代表性的是Google提出的基于云的大数据处理技术。2006年Google首先提出的云计算概念,便是源于其对大规模Web数据的处理需求。支撑Google内部各种大数据应用的正是其自己研发的一系列云计算技术和工具。Google提出的针对大数据处理和应用的云计算技术和工具,最具代表性的三项分别是:分布式文件系统GFS、分布式NoSQL(非关系型数据库)BigTable及分布式编程模型MapReduce。通过高效可扩展的海量数据存储,面向特定应用的精简数据模型及并行计算框架,实现高效的大数据存储、查询和计算分析。Google的三项大数据处理技术在学术界和产业界引起极大反响,并催生了以Hadoop为代表的一系列云计算开源工具的实现。这些基于云计算的大数据处理技术和工具,为高效执行大数据处理分析和数据挖掘提供了强大的技术支撑。[20]

10.2.4.2 大数据概念和特征

从字面上看,大数据是指数据规模非常庞大的数据,但到目前为止,学术界和工业界尚未给大数据下一个公认的定义,不同的研究组织根据其自身需求及认识,对大数据有不同的理解和定义。维基百科对大数据的定义是:大数据是指使用常用软件工具获取、管理和处理数据所耗时间超过可容忍时间的数据集。麦肯锡在其报告中对大数据的定义是:大数据指大小超过常规数据库工具获取、存储、管理和分析能力的数据集,同时,并不是一定要超过特定TB规模的数据集才能算是大数据。而IBM提出大数据的3V模型,即大数据具备海量性(Volume)、多样性(Variety)和高速性(Velocity)三个特征:海量性指数据量巨大,数据规模达到TB级及PB级;多样性指数据类型繁多,包括结构化数据和非结构化数据;高速性指数据创建、处理和分析的速度持续在加快。在此基础上,国际数据公司(International Data Corporation,IDC)认为大数据还应当具有价值性(Value),即大数据的4V定义,而且认为大数据的价值往往呈现稀疏性。IBM则认为大数据还具有真实性(Veracity)特征,将真实性作为大数据的第四个属性,凸显了管理某些类型数据中固有的不确定性的重要性。上述几种定义中,由于3V定义对大数据特征进行了形象的描述,因此成为目前引用最多的定义。[20]

大数据的海量、多样和高速特征,有研究数据可证明。IDC的研究报告中指出,至2020年,全球数据使用量预计将增加44倍,达到35.2ZB,即全球大概需要376亿个1TB硬盘来存储数据。同时,企业中20%的数据是结构化的,80%是非结构化或半结构化的,结构化数据增长率约为32%,而非结构化数据增长率约为63%。在2012年,非结构化数据占有比例已达到互联网整个数据量的75%上。2012年5月IDC中国发表研究报告《中国互联网市场洞见:互联网大数据技术创新研究,2012》,其中指出“大数据”概念正在引领中国互联网行业的新一轮的技术浪潮:在2011年年底,中国互联网行业持有的数据总量为1.9EB,到2015年,这一规模将增长到8.2EB以上。[20]

10.2.4.3 大数据服务

大数据的处理过程是指运用大数据处理技术和工具,对广泛异构的数据源进行抽取和集成,按照一定的标准统一存储,进一步运用合适的数据分析和计算工具,从存储的数据中挖掘出有价值的知识,并使用恰当的方式将结果展现给终端用户。基于大数据的处理过程,我们给出大数据服务的定义:大数据服务是指对大数据进行封装或处理分析,为用户提供数据展示或各种辅助决策,发现大数据潜在价值的功能实体。其输入是大数据,输出可以是服务封装的数据分析的结果或数据本身。[20](www.xing528.com)

在实际应用中,按大数据产业链的不同位置可将大数据服务划分成两类:大数据查询服务和大数据分析服务。[20]

(1)大数据查询服务是指大数据的拥有者以服务的形式对数据进行封装,为用户提供按需的数据查询功能。大数据蕴含的巨大价值使得大数据成为重要的能源和生产要素,因而产生了大数据的供应与流通需求。大数据资源拥有者可以是企业或公共机构,这些企业或公共机构可通过免费或按需付费的方式为其他有需求的企业或用户提供原始数据或处理过的数据。例如,美国典型运营商Verizon利用存储在其平台中的大数据资源,通过精准营销洞察(Precision Market Insights)服务,为第三方机构或企业出售整合处理后的匿名化用户数据。在国内,大数据查询服务的例子包括阿里巴巴推出的阿里数据超市、数据魔方和淘宝量子恒道等。[20]

(2)大数据分析服务是指大数据服务提供商以服务的方式为企业或个人用户提供的大数据分析能力和大数据价值挖掘服务。进一步地,按其服务模式划分,大数据分析服务可分为两类:在线大数据分析服务与离线大数据分析服务。在线大数据分析服务是指服务提供商通过SaaS或PaaS云服务形式,为用户提供在线分析服务。典型的在线大数据服务包括Google Big Query、Amazon RedShift、Facebook提供的自助式广告下单服务系统,以及Twitter基于事实搜索数据的产品满意度分析服务等。此外,国内一些提供商也逐步开始提供大数据分析云服务,如阿里云的开放数据处理服务(ODPS)、百度推出的大数据营销服务“司南”等。离线大数据分析服务则主要是指为企业用户提供的专业、定制化的大数据咨询和技术支持服务,通过对企业内部积累的大数据资源处理分析,挖掘出新的知识,提升大数据的商业价值。[20]

基于上述分析可知,大数据查询服务和大数据分析服务的区别在于数据的使用形式:大数据查询服务通过服务封装数据资源,为用户提供按需的数据查询服务;而大数据分析服务则是把数据作为处理对象,对数据进行处理、分析,将数据分析结果作为服务,提供给用户调用。大数据服务的构建是指用服务封装大数据资源,供用户访问并使用;或运用数据处理分析方法,从大数据中挖掘出有价值的信息,为用户提供辅助决策,实现大数据价值的过程。[20]

大数据作为一种新型的资源,充分运用大数据资源,挖掘出有价值的信息,是实现大数据价值的关键所在。然而,在大数据时代,传统的数据管理和分析工具无法满足大数据带来的数据处理和应用挑战,大数据服务的技术特征主要体现在三个方面[20]

(1)数据规模巨大。要实现大数据服务在企业和市场的普遍推广,需要廉价基础设施(包括计算资源和存储资源)的支撑。

(2)数据类型的多样化。要适应大数据存储的需求,需要一种支持多种数据类型、按需扩展的数据存储系统。

(3)数据增长高速化。它导致了数据价值伴随着时间的流逝而降低,在大数据场景下,数据管理和分析需求的多样化使得关系型数据库在很多场景不再适用,大数据处理和分析需要新的高效数据处理工具和模型的支撑。

综上所述,大数据服务的构建,需要低成本、可扩展的基础设施及高效率大数据处理技术的支撑;而云计算按需访问、泛在接入和弹性扩展的大资源使用方式,以及面向大数据的存储、管理及数据分析等技术工具,为解决大数据处理和应用面临的技术挑战提供了强大的技术支撑。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈