首页 理论教育 数据仓库的执行策略探析

数据仓库的执行策略探析

时间:2023-05-23 理论教育 版权反馈
【摘要】:有了元数据,就等于拥有了数据仓库的一张蓝图。例如数据仓库管理员可以利用元数据,追踪非法的数据处理到它的数据来源,并可进行深入调查。3)数据仓库的执行策略随着数据仓库技术的发展,如今数据仓库的执行策略已经从最初的“自上而下”模式发展成为多种形式。图7.12自上而下模式这个整体性的数据仓库将提供给客户一个一致性的数据格式和一致性的软件环境。

数据仓库的执行策略探析

数据仓库的构建需要将不同来源的数据进行集中、整合,然后为不同用户提供数据支持,执行策略指的就是这些数据的整合结构和应用结构。下面将先介绍数据仓库中的两个概念:数据集市和元数据。数据集市是按照不同功能对数据的归类,一般与工作职能相对应;而元数据则是对数据仓库中的资源——数据的描述,是仓库中的数据“蓝图”。

1)数据集市(Data Mart)

数据集市是一个针对某个主题的经过预统计处理的部门级分析数据库,如销售数据集市、营销数据集市、库存集市和财务集市等。目前,一般理解为企业级数据仓库里的主题数据库,是数据仓库管理系统下的一部分。不过,早期的数据集市从个别应用中发展而来,也可以独立于数据仓库而存在。当一个企业里存在着多个相互独立、数据定义不统一的数据集市时,就会导致信息的整合问题。因此,将原有的数据集市进行整合并归入数据仓库统一管理是一个必然趋势。既然是仓库,就必定会有一个统一的数据管理、数据ETL(精简、转换和输入)工具以及查询工具等,而单个数据集市是无法满足这些需要的。一个数据集市可以由特定业务领域内多个很大的“星”组成。比如,营销集市可以由“订单星”“活动星”“销售机会星”“售后服务星”“报价星”和“客户反馈星”等共同组成一个营销分析数据集市,为营销人员提供查询分析的数据源。

在本质上,数据集市同数据仓库并没有概念上的区别,将数据集市理解为一个部门级的数据仓库也未尝不可。仓库大则管理困难,而且企业在进行数据分析时往往对某个业务主题特别感兴趣,反复使用,对仓库中其他部分的数据则用得不多,这就是为什么很多企业倾向于简单一点的数据集市。当然,如果企业内的集市变多就要考虑它们之间的整合问题了,这个现象就像我们平常管理货物仓库的概念是一样的,将分散在多个货柜的货物统一放到一个大仓库里,总得对货位、产品编码等统一起来,说不定还得考虑统一的货车出入口,以便统一管理。

2)元数据(Metadata)

数据仓库中储存着几百个千兆字节的数据。这些来自不同工作数据库系统的数据,在经过筛选、过滤、聚集、转换等工作后,被存入数据仓库中。为了使企业客户能更好地使用数据仓库,元数据的概念被应用于数据仓库技术中。元数据为数据中的数据,即描述数据的数据。数据仓库中的元数据至少应涵盖下列内容:

·原始数据拥有者的信息;

·原始数据的数据源信息包括数据源的系统平台、数据源的网络地址等信息;

·数据的商业意义和典型用法;

·数据筛选的名称及版本;

·被筛选程序的名称及版本;

·被筛选数据之间的依赖(或从属)关系;

·数据从各个OLTP 数据库中,向数据仓库中加载的频率;

·数据加载数据仓库的日期及时间;

·加载数据仓库的数据记录数目;

·数据仓库中数据的利用率;

·数据转换的算法

·数据的加密级别;

·用于计算出汇总数据的商业规则。

数据从OLTP 数据源到数据仓库的映射信息包括原始数据域的标示、属性到属性之间的映射、属性的转换、名称的转换、关键词的转换、从多个数据源选择数据的算法逻辑等;数据汇总的算法及对算法的解释;数据仓库的数据模型及其描述。

有了元数据,就等于拥有了数据仓库的一张蓝图。元数据最显著的功能就是它类似于现实生活中的地图,能指引用户在多达几百GB的数据海洋中找到自己所需要的数据,协助客户更好地了解数据仓库中的数据。元数据可以协助数据仓库管理员更好地管理仓库中的数据。例如数据仓库管理员可以利用元数据,追踪非法的数据处理到它的数据来源,并可进行深入调查。客户可以利用元数据来找到所需的事实,而这些事实可协助客户来支持他们的决策,验证通过分析工具所得出的结论是否正确,以及找出他们的结论与其他部门的结论有所不同的原因。如果不同厂商的数据仓库和OLAP 工具都遵循统一的元数据交换标准,则不同厂商的数据仓库和OLAP 工具之间可以通过元数据方便地共享和交换数据。迄今为止,已有两个机构推出了元数据的交换标准,一个是微软公司的OIM-Open Information Mod(开放信息模型),另一个是Meta Data Coalition的MDIS-Meta Interchange Standard(元数据交换标准)。

由于元数据在数据仓库中的重要功能,当今各大数据仓库的生产厂商纷纷把元数据的生成和管理功能综合到产品中。

3)数据仓库的执行策略

随着数据仓库技术的发展,如今数据仓库的执行策略已经从最初的“自上而下”模式发展成为多种形式。

(1)自上而下模式

自上而下的开发策略(如图7.12所示)是指将原来分散存储在企业各处的联机交易处理数据库中的有用数据,通过筛选、过滤、转换、聚集等处理步骤建立一个整体性数据仓库。(www.xing528.com)

图7.12 自上而下模式

这个整体性的数据仓库将提供给客户一个一致性的数据格式和一致性的软件环境。从理论上来说,决策支持所需的数据都应该涵盖在这个整体性数据库中。数据集市中存储的数据,是为了某个部门的决策支持系统应用而专门从整体性数据仓库中筛选的,它是整体性数据仓库中数据的一个子集。在自上而下模式中,数据集市和数据仓库的关系是单方面的,即数据从数据仓库流向数据集市。

自上而下模式没有考虑如何将客户的反馈信息不断反映到数据集市和数据仓库的构造中,该模式都只在建立数据集市或数据仓库的过程中考虑到用户的需求。但是用户的需求并不是一成不变的,而是随着新技术与新应用的出现而不断变化的。用户的需求变化不仅要求更快速的硬件、更好的DM技术、性能更好的数据库软件、更加友好的用户图形接口,还包括所需信息内容的变化,这将导致在数据仓库或数据集市中,必须加入某些新的属性、新的表格或重组已存在的表格与属性。为此,在这里引入另一种有反馈的模式。

有反馈的自上而下模式如图7.13所示。在这个模式中,用户的新需求的反馈分为两个阶段。第一阶段:用户的新需求不断地被反馈给部门的数据集市,部门数据集市根据用户的新需求,产生自身的需求变化;第二阶段:部门数据集市把自身的需求变化反馈给整体性数据仓库,整体性数据仓库再作出相应的变化。

图7.13 有反馈的自上而下模式

(2)自下而上模式

自下而上模式(如图7.14所示)是从构造各个部门或特定的企业问题的数据集市开始,而整体性数据仓库是建立在这些数据集市的基础上。

图7.14 自下而上模式

自下而上模式的特点是初期投资少,见效快。因为它在构造部门数据集市时,只需要较少的人作出决策,而所解决的是较小的商业问题。自下而上的开发模式可以使一个部门在数据仓库发展初期尽可能少花费资金,在作出有效的投入之前评估技术的成本收益状况。

与上一种模式一样,自下而上模式也有反馈式的,如图7.15所示,它由于采取的是先构造部门数据集市,再以各部门的数据集市为基础,构造整体性数据仓库的方式,因此,数据集市能较好地满足用户的需求,在整体性数据库建立好之后,需求的变化将主要体现在数据集市与数据仓库之间。

图7.15 有反馈的自下而上模式

如果各个部门数据集市在发展时注意保持相互之间的数据一致性,并能根据用户的反馈信息不断地调整自己,那么以这种模式建立的数据仓库在投入使用之后,能减少因用户的需求变化所带来的不便。

(3)平行开发模式

平行开发模式(如图7.16所示)是指在一个整体性数据仓库的数据模型的指导下,数据集市的建立和整体性数据仓库的建立同步进行。

图7.16 平行开发模式

在平行开发模式中,由于数据集市的建立是在一个统一的整体性数据模型的指导下进行的,可避免各部门在开发各自的数据集市时的盲目性,减少各个数据集市之间的数据冗余和不一致性。事实上,一些部门在建立数据集市的过程中,所遇到的问题及其解决方案、所获得的经验,将决定整体性数据仓库的数据模型作出相应的改变,这些变化将使其他部门在建立数据集市时受益,也有助于整体性数据仓库的构造。在平行开发模式中,数据集市的这种相对独立性有利于整体性数据库的构造。一旦整体性数据仓库建立好之后,各个部门的数据集市将成为整体性数据仓库的一个子集,整体性数据仓库将负责为各个部门已建好的和即将要建立的数据集市提供数据。

平行开发与自上而下模式的区别在于,它满足了企业中的各个部门希望在较短的时间内建立本部门的决策支持系统的需求,使他们不用等待整体性数据仓库建立好之后才建立属于自己的数据集市。同时它改变了在自上而下模式中部门数据集市在与整体性数据仓库关系中的附属地位,在建立数据集市过程中所获得的经验将有助于整体性数据仓库的数据模型的最优化和整体性数据仓库的构造。

平行开发模式用一个统一的整体性数据仓库的数据模型来指导各个部门数据集市的构造,可以解决数据集市之间数据的不一致性,也可减少数据集市之间的数据冗余问题。

对于有反馈的平行开发模式(如图7.17所示),在开发的起始阶段,开发人员主要是在整体性数据仓库数据模型的指导下建立部门数据集市,并把在建立过程中所遇到的问题及其解决方案以及客户的意见等信息反馈给整体性数据仓库数据模型。整体性数据模型在指导部门数据集市构造的同时,也收集开发人员和部门客户反馈的信息,并根据这些信息调整自己。经过调整,可以使下一阶段整体性数据仓库的构造相对顺利地进行。通常,人们会认为在这种平行开发模式中,整体性数据仓库的数据模型应在开始建立部门数据集市之前完成,因此开发人员需要在项目的起始阶段,就迅速地开发建立整体性数据仓库的数据模型,而数据集市的开发工作也不得不等待整体性数据仓库的数据模型完成之后才开始。

图7.17 有反馈的平行开发模式

事实上,在平行模式的开发过程中,并不一定要求在开发部门数据集市之前完成整个数据仓库的数据模型开发。对平行开发模式而言,整体性数据仓库的数据模型开发,可以在建立第一个部门数据集市的同时进行。这是因为一方面,对减少数据集市之间的数据冗余度和数据的不一致性而言,并不需要一个完全建立好的整体性数据模型,整体性数据模型在指导数据集市构造的同时,还要不断听取研发人员和用户的反馈信息来调整自己;另一方面,部门数据集市在研发和使用过程中所得到的经验,有助于研发人员在设计整体性数据模型时能更好地了解客户的需求。

4)数据仓库系统的结构

企业建立数据仓库的最后目的,是使企业的经营管理者,能够很方便地运用数据仓库这一综合性决策支持环境以获取有价值的信息,协助管理阶层对不断变化的环境作出迅速、准确的判断和找出相应的对策。因此,界面友好、功能强大而为客户服务前端工具应被有效地综合到这个新的数据分析环境中。

数据仓库系统是以数据仓库为基础,通过数据筛选工具、数据转换工具、查询工具、报表工具、分析工具和DM工具等,满足客户对信息的各种需求。图7.18所示为较为典型的数据库系统结构图

图7.18 数据库系统结构图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈