首页 理论教育 大数据挑战及其处理技术的发展与应用

大数据挑战及其处理技术的发展与应用

时间:2023-10-17 理论教育 版权反馈
【摘要】:照此增长速度计算,最近几年最大数据仓库中的数据量将逼近100PB。数据分析日益成为企业利润必不可少的支撑点。但在大数据时代,分析处在变化的业务环境中,这种模式将难以适应新的需求。(三)一个鸿沟在大数据时代,巨量数据与系统的数据处理能力间将会产生一个鸿沟:一边是至少PB级的数据量,另一边是面向传统数据分析能力设计的数据仓库和各种BI工具。而且,舍弃的数据在未来可能会重新使用,以发掘出更大的价值。

大数据挑战及其处理技术的发展与应用

最近几年,数据仓库又成为数据管理研究的热点领域,主要原因是当前数据仓库系统面临的需求在数据源、需提供的数据服务和所处的硬件环境等方面发生了根本性的变化,这些变化是我们必须面对的。

(一)三个变化

1.数据量

由TB级升到PB级,并仍在持续爆炸式增长。2011年经调查显示,最大的数据仓库中的数据量,每两年增加3倍(年均增长率为173%),其增长速度远超摩尔定律增长速度。照此增长速度计算,最近几年最大数据仓库中的数据量将逼近100PB。

2.分析需求

由常规分析转向深度分析(Deep Analytic s)。数据分析日益成为企业利润必不可少的支撑点。根据TDWI(中国商业智能网)对大数据分析的报告,如图1-1所示,企业已经不满足于对现有数据的分析和监测,而是期望能对未来趋势有更多的分析和预测,以增强企业竞争力。这些分析操作包括诸如移动平均线分析、数据关联关系分析、回归分析、市场分析等复杂统计分析,我们称之为深度分析。

图1-1 分析的趋势图

3.硬件平台

由高端服务器转向由中低端硬件构成的大规模机群平台。由于数据量的迅速增加,并行数据库的规模不得不随之增大,从而导致其成本的急剧上升。出于成本的考虑,越来越多的企业将应用由高端服务器转向了由中低端硬件构成的大规模机群平台。

(二)两个问题

图1-2所示为一个典型的数据仓库架构。(www.xing528.com)

由图1-2可以看出,传统的数据仓库将整个实现划分为4个层次,数据源中的数据首先通过ETL工具被抽取到数据仓库中进行集中存储和管理,再按照星形模型或雪花模型组织数据,然后由OLAP工具从数据仓库中读取数据,生成数据立方体(MOLAP)或者直接访问数据仓库进行数据分析(ROLAP)。在大数据时代,此种计算模式存在以下两个问题。

图1-2 典型的数据仓库架构

1.数据移动代价过高

在数据源层和分析层间引入一个存储管理层,可以提升数据质量并针对查询进行优化,但也付出了较大的数据迁移代价和执行时的连接代价。数据首先通过复杂且耗时的ETL过程存储到数据仓库中,在OLAP服务器中转化为星形模型或者雪花模型;执行分析时,又通过连接方式将数据从数据库中取出,这些代价在TB级时也许可以接受,但面对大数据,其执行时间至少会增长几个数量级。更为重要的是,对于大量的即时分析,这种数据移动的计算模式是不可取的。

2.不能快速适应变化

传统的数据仓库假设主题是较少变化的,其应对变化的方式是对数据源到前端展现的整个流程中的每个部分进行修改,然后再重新加载数据,甚至重新计算数据,导致其适应变化的周期较长。这种模式比较适合对数据质量和查询性能要求较高,而不太计较预处理代价的场合。但在大数据时代,分析处在变化的业务环境中,这种模式将难以适应新的需求。

(三)一个鸿沟

在大数据时代,巨量数据与系统的数据处理能力间将会产生一个鸿沟:一边是至少PB级的数据量,另一边是面向传统数据分析能力设计的数据仓库和各种BI工具。如果这些系统工具发展缓慢,该鸿沟将会随着数据量的持续爆炸式增长而逐步拉大。

虽然,传统数据仓库可以采用舍弃不重要数据或者建立数据集市的方式来缓解此问题,但毕竟只是权益之策,并非系统级解决方案。而且,舍弃的数据在未来可能会重新使用,以发掘出更大的价值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈