首页 理论教育 数据仓库技术的基本概念简介

数据仓库技术的基本概念简介

时间:2023-06-23 理论教育 版权反馈
【摘要】:数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。在一个大型企业中,数据集市通常是构建企业数据仓库的前奏。ETL将源数据进行抽取、清理、然后转换成对终端用户有意义的数据,最后装载到数据仓库数据库中。

数据仓库技术的基本概念简介

由于不同企业和个人对数据仓库有不同的理解,因此,与数据仓库联系比较紧密的术语需要进行定义。这些术语容易产生混淆,如当前细节数据、历史细节数据、数据集市概括数据等。下面分别给出本文的定义:

1.数据仓库

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

2.数据仓库技术

数据仓库技术(Data Warehousing)是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。它是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。

3.当前细节数据

直接从企业操作型数据库中获取的数据,这些数据通常代表整个企业业务。当前细节数据是根据主题进行组织的,如教师分析数据,教师活动数据、成绩数据等等。

4.历史细节数据

当前细节数据中已经老化的数据称为历史细节数据,或者主题域的历史数据,这些数据可用来进行趋势分析。

5.数据集市

企业在某个部门进行的、范围相对较小的数据仓库实现。数据集市可以包含轻度综合的企业部门级数据,适合针对某个特定部门的数据。在一个大型企业中,数据集市通常是构建企业数据仓库的前奏。一系列数据集市的集合就构成了企业数据仓库。相反,数据仓库可以作为数据集市子集的集合。

6.概括数据

根据执行高级报表、趋势分析、企业范围的决策支持需要而包含的数据。概括数据的容量要比当前和历史细节数据少。

7.下钻

分析人员在进行分析时将数据从上到下展开,从高度综合的概括数据开始,遍历到当前数据或者历史数据的能力。例如,如果高度综合的地理销售数据显示了北方销售量的减少,分析者可以从这个概括数据出发,钻取到省、市、县的销售趋势,甚至钻取到某个销售部门的最差的销售记录情况。

8.元数据(www.xing528.com)

元数据是数据仓库最重要的一部分,是有关数据的数据,包含数据仓库系统组件的位置和描述信息、仓库名称、定义、结构、内容以及终端用户视图,另外,元数据还包括数据仓库集成和转移的相关信息、仓库修改和更新的有关历史数据、终端用户模式分析数据仓库性能的度量单位等信息。

9.复制

关系数据库管理系统或者其他工具提供的一组程序。通过复制能够把数据从源数据库拷贝到目标数据库。复制没有解决数据源中数据不一致问题。

10.抽取、转换和装载(Exatract,Transfom Riatonand Load,ETL)工具

ETL工具具有复杂功能。ETL将源数据进行抽取、清理、然后转换成对终端用户有意义的数据,最后装载到数据仓库数据库中。抽取是从各个数据源拷贝数据,解决了数据的不一致性问题;转换是为了使数据对于DSS分析更加有用而进行的聚集、概括、分割、重组等数据加工过程;装载是将清理以后的数据存储到数据仓库中。

11.聚集

聚集是将相关数据放在一个预先连接的表中。是多维数据表进行预先计算的过程,如将经常访问的表示销售量的数据根据地区进行聚集后,分析者可以很快得到某个地区的销售量。

12.概括

计算某些字段(或者维)的总量。

13.粒度

数据的细化程度,数据仓库设计的最重要的问题。可以将数据划分为原子级粒度(单个事务级)、轻度综合和高度综合。

14.事实表

多维数据分析中分析查询的目标,多维分析中,维表提供约束,事实表提供答案。

15.分割

将事实表根据一定标准(如访问频率)分成更小的单位。对大的事实表进行分割可以提高查询速度,事实表可以根据时间、业务范围进行分割。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈