首页 理论教育 数据仓库定义与特点-现代数据库原理与索引设计优化

数据仓库定义与特点-现代数据库原理与索引设计优化

时间:2023-10-21 理论教育 版权反馈
【摘要】:目前,很多事业单位、企业单位等已经认识到了数据仓库所带来的好处。把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。(二)数据仓库的特点与传统数据库相比较,数据仓库具有面向主题、集成的、相对稳定、反映历史变化四个特点。这表明数据仓库中的查询操作较多,相应的删除和修改操作较少,通常需要定期对其进行刷新和加载。

数据仓库定义与特点-现代数据库原理与索引设计优化

(一)数据仓库的定义

数据仓库是近年来信息领域中迅速发展起来的数据库新技术。目前,“数据仓库”一词尚没有一个统一的定义,比较一致的说法如下:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,主要用于支持管理决策过程。

对于数据仓库来说,我们要对其中的两点进行重点关注:第一,在支持决策方面,数据仓库是一种良好工具,这对面向分析型数据处理是有意义的,不同操作型的数据库是不同的;第二,数据仓库是对多个异构数据源的有效集成,完成集成后又根据主题的不同进行相应重组,包含历史数据,且放置于数据仓库中的数据一般情况下不进行过多修改。在建立数据仓库的过程中,要充分利用已经存在的数据资源,获取其中的有用信息,进而创造相应的效益。目前,很多事业单位、企业单位等已经认识到了数据仓库所带来的好处。

对于传统的数据库技术来说,传统数据库以数据库本身为中心,对很多类型的数据进行相应的处理工作,如事务处理批处理等。对于不同类型的数据处理而言,它在处理特点上是不同的。以单一的数据组织方式进行组织的数据库并不能体现这种差异性,也不能满足数据处理所具有的多样化要求。在数据库应用更加普及的当下,人们发现对数据的处理除了操作型处理外,还有分析型处理,而且分析型处理会带来更好的效益。

所谓操作型处理(或事务处理),是指对数据库进行联机的日常操作,如对一个或一组记录的查询和修改等。操作型处理主要是为特定应用服务的,操作人员比较注重响应时间、数据的安全性和完整性等问题。分析型处理主要由管理人员处理,处理结果往往会影响其决策行为。这种操作经常要访问大量的历史数据,与操作型数据之间有很大的差异。

数据仓库是以已有的业务系统和大量业务数据的积累为基础的,它不是静态的概念。把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。从产业界的角度看,数据仓库建设是一个工程。

(二)数据仓库的特点

与传统数据库相比较,数据仓库具有面向主题、集成的、相对稳定、反映历史变化四个特点。

1.面向主题

与传统数据库面向事务处理应用进行数据组织的特点相比,数据仓库中的数据是面向主题进行组织的。

主题是一个抽象的概念,是指用户使用数据仓库进行相应决策时所关心的方面。它是在较高层次将企业信息系统中的数据综合、归类并进行分析利用的抽象,一个主题通常与多个操作型信息系统密切相关。在逻辑上,它对应企业某一宏观分析领域中所涉及的分析对象。所谓较高层次,是相对面向应用的数据组织方式而言的,是指根据主题进行数据组织的方式具有更高的数据抽象级别。主题的实现是通过表达来完成的,我们可以根据数据的不同属性对主题进行划分,如综合性和时间属性。对于一个主题来说,它所有的表都是公共码键在其属性上的表现,其中主码是它的重要部分。公共码键是用来实现统一主题的不同表上的连接。在某一时刻,数据仓库对公共码键进行连接,所以时间也是公共码键的重要部分。(www.xing528.com)

数据仓库中的数据是按照一定的主题域进行组织的,同一主题的表不一定存储在相同的介质中,但可以根据数据被关心的程度分别存储在磁盘、磁带、光盘等不同的介质中。一般而言,查询频率低的数据存储在廉价、慢速设备(如磁带)上,而查询频率高的数据则保存在磁盘上。

2.集成的

面向事务处理的操作型数据库与某些特定应用是有一定关系的。数据库本身是独立的,同时也是异构的。但是数据仓库中的数据在对原有的分散的数据库数据进行相应的清理和抽取之后,再经过系统汇总、整理、加工才得到的。在这个过程中,必须通过消除源数据中的不一致性,来保证数据仓库所具有的信息是关于整个企业的一致的全局信息。

由于操作型处理与分析型处理之间的差别,数据仓库的数据是从原有分散的数据库数据中抽取来的。在数据进入数据仓库之前,需经过加工、统一、综合等集成处理。数据集成是数据仓库建设中较为关键、复杂的一步。

3.相对稳定

因为操作型数据库中的数据时常需要进行更新,所以数据是不停地发生变化的。对于数据库中的数据来说,它是提供给企业进行决策分析时使用的,所涉及的数据操作主要是数据查询。一般来说,当一个数据进入数据仓库后,将会被长期保留。这表明数据仓库中的查询操作较多,相应的删除和修改操作较少,通常需要定期对其进行刷新和加载。数据仓库中存储的是很长时间内的历史数据,是不同时刻数据库快照的集合,以及基于这些快照进行综合、统计、重组和导出的数据,而不是联机处理的数据。所以,数据在进入数据库之后所进行的集成是很少更新的,相对来说也就比较稳定。

4.反映历史变化

操作型数据库比较关注当前某一个时间段内的数据,但是数据仓库中的数据通常包含历史信息,系统地记录了企业从过去某一时间点到目前各阶段的信息。对这些信息进行有效利用,可以对企业的发展历程和未来趋势做出定量分析和预测。

数据仓库中的数据是相对稳定的,是指数据仓库的用户在进行分析处理时可不对数据进行更新操作,但这并不是说数据仓库在其生存周期内不对数据集合进行改变,而是针对数据仓库中的数据来说的,即在时间变化的同时,它也在发生相应的变化。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈