在数据采集和传输完成之后,我们就需要考虑如何存储这些数据了。根据数据量的大小,数据存储的方式也有所不同。如有的数据存于自建的机房和服务器中,有的数据存在租赁的服务器中,有的数据存在云端。目前,大数据存储的边界已不再局限在政府机构或企业的内部,也可在政府机构或企业的外部;既可保存在数据中心,也可保存在边缘节点。下面我们来了解几种新型的存储技术和存储载体。
(一)云存储
云存储是一种网上在线存储的模式,即把数据存放在通常由第三方托管的多台虚拟服务器,而非专属的服务器上,其实质是基于云计算发展起来的海量数据的线上存储。托管公司运营大型的数据中心,负责提供数据存储和管理服务;需要数据存储托管的人,则通过向其购买或租赁存储空间的方式,来满足数据存储的需求。
与传统存储相比,传统存储是各自存各自的数据,云存储就是把大量用户终端的数据集中存在一个地方,并通过网络将终端与存储中心连接起来,实现数据的存储和调用。因此,云存储具有存储成本低、数据管理方便等优势。目前,云存储已成为应用广泛的主流存储方式,很多企业都拥有自己的云存储产品。如国外的亚马逊AWS,国内的阿里云、腾讯云、百度云、360云盘等。2019年,在全球云计算市场中,位于第一的亚马逊AWS市场份额达到32.3%,一直是行业龙头;列第二、三、四名的微软Azure、谷歌云、阿里云,其市场份额分别为16.9%、5.8%、4.9%,市场份额进一步向头部云服务厂商集中。
案例11:政务云介绍
政务云是云存储在政府领域的应用,目的是利用云计算高可靠性、高通用性、高可扩展性等优势,大幅减少政府自建数据中心的数量,实现政务数据的集中式存储和共建共用。2019年7月,中国信通院发布的《云计算发展白皮书(2019)》显示,政务云已覆盖全国31个省级行政区,地市级行政区覆盖比例为75%。可以说,政务云已经成为我国发展电子政务的“标配”。
目前,各地政务云建设基本上采取对信息系统的运行环境进行整合而不是改造的方式,即将已建信息系统逐步迁移到政务云平台上,用购买云服务的方式新建系统,最终实现所有的政府信息系统都在统一的政务云平台上运行。随着部门云业务的不断增多,有效地避免了存储设施的分散建设、重复投资,也有利于把以往散落在各个部门的数据逐渐归集起来,提高政务数据共享和业务协同能力。
2015年7月,我省启动政务云建设工作,采用集监管、服务、整合、灾备为一体的“1+N+N+1”的云计算架构体系(即1个云监管平台,N个云服务商平台,N个部门云整合平台和1个云灾备平台)。2016年1月,我省政务云正式开通上线。经过持续建设完善,现已建成了依托电子政务外网和互联网的“1+4+1+1”(即1个全省统一的云监管平台,移动云、电信云、联通云、浪潮云4个云服务商平台、1个部门整合云平台——“交通云”和1个异地云灾备平台)的省级政务云平台,具有完备的计算、存储、网络、安全等云服务能力,并通过国家信息安全等级保护制度第三级要求,云生态圈初步形成。截至2019年底,省级政务云承载了79个部门504个系统,应用上云数量居全国政务云前列,有力支撑电子政务集约化发展,并已为省级财政至少节约经费2.6亿元。在市(州)层面,除遂宁市、南充市尚在规划建设外,其他19个市(州)都已完成政务云建设。
(二)边缘存储
边缘计算就是将云计算能力下沉到靠近用户端的网络边缘,执行传统网络设施难以完成的数据就近处理分析的特定任务。在边缘计算架构中,数据不是首先传送至企业云或数据中心,而是在产生这些数据的设备现场或附近就得到处理和分析。目前,它主要应用在基于实时分析的个性化移动应用推广领域,如无线类业务、大视频、车联网、智能制造等。
边缘存储是支撑边缘计算的核心存储技术,是指把数据直接存储在数据采集端(边缘),而不是跨越整个网络将数据输送到中心服务器存储。实质上它是从存储的中心化转到存储的边缘化,也称为去中心化存储。
边缘存储对边缘计算的高效存储主要体现在三个方面:第一,边缘存储可提供数据预取和缓存服务,以克服云存储远距离数据传输造成的高延迟、网络依赖等问题。第二,边缘存储可提供邻近边缘终端的分布式数据存储服务,缓解云数据中心的存储和带宽压力,降低数据遭受网络攻击的风险。第三,边缘存储能够与云存储协同提供存储服务,支持边缘计算任务在边缘终端和云端的协同处理,促进边缘计算与云计算的融合。
与云存储相比,边缘存储通过将数据从远距离的云服务器端迁移到离数据源更近的边缘存储设备或数据中心,从而大幅度缩短数据产生、计算、存储之间的物理距离,为边缘计算提供实时可靠的数据存储和高速低延迟的数据访问。
表6 云存储与边缘存储的比较
知识拓展:云计算和它的不同类型
“云计算”之所以被如此命名,是因为在确定电信网关键要素的图表中常出现云朵的形状。云计算这个概念最早出现在1996年,直到2006年才被谷歌、戴尔、亚马逊等公司广泛地使用。它并没有一个明确的定义,主要是指通过互联网,而不是通过计算机自身的硬件和其他一些便携式存储设备,来获取文档和软件,提升计算机性能。它是一个面向组织和个人生产、存储、分析和发布数据、信息、应用、服务的强有力的系统。简单来讲,如果你用微信与人交流,在淘宝网站购物,从iCloud下载音乐,那么你就是在使用云计算。
云计算不等同于互联网,因为它不仅利用大量网站构成的大规模网络(如互联网),也使用私人网络去传输数据,这种私人网络或许能接入互联网,但会保持独立性并且只有一部分用户可以使用。因此,云计算模式可分为公有云、私有云、混合云。按照服务形式,云计算主要有三种类型——基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。
图7 云计算的三种类型示意图
基础设施即服务(IaaS):指把IT基础设施作为一种服务通过网络对外提供,并根据用户对资源的实际使用量或占用量进行计费的一种服务模式。(www.xing528.com)
平台即服务(PaaS):指将软件研发的平台作为一种服务。
软件即服务(SaaS):指通过网络提供软件服务,用户不用再购买软件,而改用向提供商租用基于Web的软件,来管理企业经营活动。例如,我们可以不用购买微软公司的Word软件,而是通过登录云服务公司的系统,按每月固定的价格或者按次付费来租用这款文字处理软件。
(三)数据中心
无论是云存储,还是边缘存储,都离不开数据中心等硬件设施的支撑。数据中心是云存储的核心基础设施,是云计算规模化、集约化发展的关键。通常所说的数据中心,是指按照统一标准建设,为集中存放的具备计算能力、存储能力、信息交互能力的IT应用系统提供稳定、可靠运行环境的场所。数据中心按照服务的对象可以分为企业数据中心(EDC)和互联网数据中心(IDC)。企业数据中心指由企业或机构构建并所有,服务于企业或机构自身业务的数据中心。互联网数据中心由IDC服务提供商所有,通过互联网向客户提供有偿信息服务。
表7 数据中心类型
从全球看,美国、欧洲、日本等发达国家和地区相继推出政策计划,将提供云服务的数据中心整合升级作为大数据战略实施的关键基础。例如,美国政府发布了《联邦政府云计算战略》,制订美国数据中心未来发展方向;日本计划在2020年前培育累计规模超过40万亿日元的云计算数据中心新市场,等等。此外,发达国家将直接面向用户的部分数据中心向靠近用户的地区布局、向自然条件优越区域集约化布局的趋势日益明显,加快提升面向全球的云服务能力,进一步掌控信息资源。互联网企业是数据中心领域的创新者与引领者,无论是亚马逊、谷歌,还是百度、阿里巴巴、腾讯等,一直都在暗中发力,扩大数据中心规模。2019年,全球超大型数据中心为504个,其中美国占比达40%,居全球第一。
从国内看,近年来,我国数据中心建设呈爆发式增长,呈大型化、规模化趋势。2019年,我国数据中心数量大约7.4万个,约占全球数据中心总量的23%,数据中心机架规模达到227万架,在用IDC数据中心数量2213个。尽管我国数据中心数量众多,但超大型数据中心数量在全球的比重仅为12.7%。与服务于全球市场的美国数据中心不同,我国的数据中心主要服务于国内市场,且数据中心计算资源分布总体呈现明显的“东部不足、西部过剩”的结构性失衡局面。因此,借鉴能源领域的“西电东输”模式,谋划实施数据要素领域的“东数西算”工程,优化数字基础设施和应用的空间布局,构建全国统一的数据要素大市场,促进数据要素资源跨域流通已是大势所趋。
从省内看,我省在用在建数据中心有140多个。三大运营商均有超大型数据中心布点。截至2019年底,全省在用大型数据中心机架数约5万个,开工建设大型数据中心规划机架数21万个。但是,一些地方误将数据中心建设视为大数据产业发展的重点,不考虑产业和数据基础,盲目追逐硬件设施投资,轻视数据资源汇聚、积累、处理与应用能力建设。在超出实际需求的情况下,仍有不少地区在筹备建设新的数据中心,势必会造成新的闲置与浪费。
案例12:西部地区的数据中心建设
贵州省充分利用丰富的电力资源及冬暖夏凉的自然条件,在营造政策环境、政府使用云服务、数据容灾备份、大数据应用服务等方面开展了积极探索。通过打造“云上贵州”树立了较好的品牌形象,吸引了相关产业在贵州聚集,已建成中国重要的数据中心基地之一。2019年,在第二届数字中国建设峰会上,贵州、福建、广东、江苏四省大数据管理部门签署《跨省域大数据战略合作协议》,将通过开展政务数据中心、大数据平台等大数据基础设施资源共享,共同探索政务数据跨省异地灾备。此外,还有不少知名企业的数据中心在贵州落地,如华为数据存储中心,存储华为在170个国家的管理数据;腾讯贵安七星绿色数据中心,存储腾讯最核心的大数据;苹果iCloud数据中心,储存中国所有苹果用户的信息。
四川与贵州的气候条件相似,是全国重要的清洁能源基地和“西电东送”基地,水电消纳示范区建设也已正式实施,而且产业基础更好、经济体量更大,有得天独厚的优势,是全国的数字大省。雅安市正在加快建设川西大数据中心,规划布局机架超过20万个,与国内领先地区贵安新区数据存储能力相当。其中,川西大数据产业园作为川西大数据中心的重要载体,已于2019年6月开园运营,可容纳机架数量达1万个,成为四川首个超大规模数据中心。泸州市的华为大数据中心于2017年11月23日建成使用,安装机柜1032个,已将全市130个单位的超过300个业务系统上云,上云单位比例超过90%,信息孤岛缩减90%以上,资源利用率提升60%以上,政务服务效率提升1倍以上。
(四)数据湖
在了解新型的存储技术和载体之后,这里重点介绍一种较为前沿的存储方式。在大数据的发展过程中,数据存储主要有三种模式,即数据库、数据仓库和数据湖。数据库相当于一个电子化的文件柜,主要存储关系型数据,支持实时的、小批量的数据交易。数据仓库能将各种业务系统的结构化数据整合在一起,进行业务分析并提供直观易懂的查询结果。而数据湖是一种大型数据存储库和处理引擎,可以很轻松地保存各种类型的原始数据,以及拥有更加强大的信息处理能力,可以处理几乎无限的并发任务或工作。由此可见,数据湖是数据仓库发展的高级阶段。
图8 数据湖示意图
与数据仓库相比,数据湖的优势在于它能统一处理结构化和非结构化数据。此外,数据湖采用并行处理技术,能够支持深度学习方法在内的多种机器模型的算法,这就意味着数据湖有更高的效率和更强的扩展能力。例如可以把行为日志、图像、语音等非结构化数据,做进一步的数据处理与分析,最终输出用户画像,这些都是数据湖能提供的特别优势。因此,数据湖比数据仓库更为灵活。
表8 数据湖和数据仓库的主要区别
目前,数据湖的应用还处于初期阶段,只有为数不多的大企业有能力将全部数据存入数据湖。未来随着数据灵活应用的需求越来越大,数据湖将会受到越来越多的关注。值得一提的是,我省不仅是资源大省、人口大省、经济大省,也是数字大省,为充分利用好数据这个“钻石矿”,亟须加快梳理和归集全省政务数据,建设数据资源中心,打造我省政务数据湖,形成数据对技术、资金、人才的引导、聚集和扩散作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。