(一) 数据仓库的概念
业界公认的数据仓库(data warehouse,简称DW)概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。数据仓库就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息的问题。
数据仓库系统的体系结构,如图2-6所示。
图2-6 数据仓库系统体系结构
20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数据源来、从脱机的历史业务数据中来……这个数据中心是一个联机的系统,通过它可以满足决策支持和联机分析应用所要求的一切,这个数据中心就叫做数据仓库,20世纪90年代初被提了出来。
(二) 数据仓库与数据库的关系
C. J. Date博士的经典之作《数据库系统介绍》(An Introduction to Database Systems)中提到“今天数据仓库所要提供的正是当年关系数据库所要倡导的”。然而,由于关系数据库系统在联机事务处理应用中获得的巨大成功,使得人们已不知不觉将它划归为事务处理的范畴。过多地关注于事务处理能力的提高,使得关系数据库在面对联机分析应用时又遇到新的问题——今天的数据仓库对关系数据库的联机分析能力提出更高的要求,采用普通关系型数据库作为数据仓库在功能和性能上都是不够的,它们必须有专门的改进。因此,数据仓库与数据库的区别不仅仅表现在应用的方法和目的方面,同时也涉及产品和配置上的不同。
(三) 数据仓库的特点
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其他数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据,用于支持管理中的决策制定过程。
1. 面向主题
面向主题指的是数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。这个定义中的主题对应一个客观分析领域,如营销状况、企业利润等。
2. 数据集成
数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。
3. 稳定(https://www.xing528.com)
稳定是指一旦某个数据进入数据仓库内,一般将被长期保存,即数据仓库中大量的操作时插入和查询、删除和修改很少。集成指的则是数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,而是经过系统加工、汇总和整理,从而确保数据仓库内的信息是关于整个企业的一致的全局信息。
4. 包含历史数据
包含历史数据是指数据仓库内的信息并非仅仅是企业当时或某一时的信息,而是系统记录企业从过去某一时刻到目前各时段的信息,利用这些历史数据可对企业发展历程和未来发展趋势作出定量分析与预测。
由此可见,数据仓库跨越企业的时空界限,将不同企业不同的事务处理系统的数据集成起来提供一个统一的数据视图,获得企业运作状况和客户行为的综合信息。数据仓库是在数据库基础上发展而来的,通常有三个部分:数据仓库、联机与分析处理和数据挖掘,三者之间有极强的互补关系。数据仓库的管理是基于元数据管理的,元数据就是关于数据的数据,它描述的是数据仓库的数据和环境,记录了数据仓库中数据间的关系,以及与业务处理系统中的业务数据间的关系。
(四) 数据仓库技术
1. 数据抽取
数据的抽取是数据进入数据仓库的入口,由于数据仓库是一个独立的数据环境,所以它需要通过抽取过程从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。因为数据仓库中的数据不一定要求与联机事务处理系统保持实时的同步,因此,数据抽取可以定时进行,但多个抽取操作的时间、顺序对数据仓库中信息的有效性至关重要。
2. 数据存储与管理
数据仓库的组织管理方式决定了它有别于传统数据库的特征,首先,在数据仓库中所涉及的数据量比传统事务处理大得多,且随时间的推移而累积;其次,在传统联机事务处理应用中,用户访问系统的特点是短小而密集,而数据仓库系统中用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高;最后,由于数据仓库中各数据表的数据量往往不均匀,普通查询优化器所得出的最佳查询路径可能不是最优的,因此,对数据仓库的管理器进行了改进,增加了多重索引扫描的能力以及采样数据的查询能力,大大提高了系统的查询效率。
3. 联机分析处理技术(OLAP)
联机分析处理是针对特定问题的联机数据访问和分析,通过对数据的多层次、多阶段的分析处理,以获得高度归纳的分析结果。联机分析处理是一种自上而下不断深化的分析工具,它要求按多维的方式组织企业的数据,传统的关系数据库难以胜任,于是人们提出了多维数据库的概念,正是这一技术的发展使决策分析中的数据结构和分析方法相分离,才有可能研制出通用而灵活的分析工具,并使分析工具产品化。决策分析需要从不同角度来观察分析数据,以多维数据为核心的多维数据分析是决策的主要内容。目前,联机分析处理技术中有两种处理方法:一种是基于多维数据库的,另一种是基于关系数据库模型的,前者分析所需数据从数据仓库中提取出来物理地组成多维数据库,而后者利用关系表来模拟多维数据库,并不是物理地生成多维数据库。
4. 数据挖掘技术
数据挖掘技术(data mining,简称DM)是从大量的数据中抽取有价值的信息,从而帮助决策者寻找数据间潜在的关联,发现被忽视的要素,而这些信息对预测趋势和决策行为也许是十分有用的。从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中挖掘出潜在的模式,观测客户的行为,帮助企业的决策者调整市场策略,从而减少风险,协助作出正确的决策,是提高企业科学决策质量与效率的一种方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
