由于不同企业和个人对数据仓库有不同的理解,因此,与数据仓库联系比较紧密的术语需要进行定义。这些术语容易产生混淆,如当前细节数据、历史细节数据、数据集市概括数据等。下面分别给出本文的定义:
1.数据仓库
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
2.数据仓库技术
数据仓库技术(Data Warehousing)是基于信息系统业务发展的需要,基于数据库系统技术发展而来,并逐步独立的一系列新的应用技术。它是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。
3.当前细节数据
直接从企业操作型数据库中获取的数据,这些数据通常代表整个企业业务。当前细节数据是根据主题进行组织的,如教师分析数据,教师活动数据、成绩数据等等。
4.历史细节数据
当前细节数据中已经老化的数据称为历史细节数据,或者主题域的历史数据,这些数据可用来进行趋势分析。
5.数据集市
企业在某个部门进行的、范围相对较小的数据仓库实现。数据集市可以包含轻度综合的企业部门级数据,适合针对某个特定部门的数据。在一个大型企业中,数据集市通常是构建企业数据仓库的前奏。一系列数据集市的集合就构成了企业数据仓库。相反,数据仓库可以作为数据集市子集的集合。
6.概括数据
根据执行高级报表、趋势分析、企业范围的决策支持需要而包含的数据。概括数据的容量要比当前和历史细节数据少。
7.下钻
分析人员在进行分析时将数据从上到下展开,从高度综合的概括数据开始,遍历到当前数据或者历史数据的能力。例如,如果高度综合的地理销售数据显示了北方销售量的减少,分析者可以从这个概括数据出发,钻取到省、市、县的销售趋势,甚至钻取到某个销售部门的最差的销售记录情况。
8.元数据(www.xing528.com)
元数据是数据仓库最重要的一部分,是有关数据的数据,包含数据仓库系统组件的位置和描述信息、仓库名称、定义、结构、内容以及终端用户视图,另外,元数据还包括数据仓库集成和转移的相关信息、仓库修改和更新的有关历史数据、终端用户模式分析数据仓库性能的度量单位等信息。
9.复制
关系数据库管理系统或者其他工具提供的一组程序。通过复制能够把数据从源数据库拷贝到目标数据库。复制没有解决数据源中数据不一致问题。
10.抽取、转换和装载(Exatract,Transfom Riatonand Load,ETL)工具
ETL工具具有复杂功能。ETL将源数据进行抽取、清理、然后转换成对终端用户有意义的数据,最后装载到数据仓库数据库中。抽取是从各个数据源拷贝数据,解决了数据的不一致性问题;转换是为了使数据对于DSS分析更加有用而进行的聚集、概括、分割、重组等数据加工过程;装载是将清理以后的数据存储到数据仓库中。
11.聚集
聚集是将相关数据放在一个预先连接的表中。是多维数据表进行预先计算的过程,如将经常访问的表示销售量的数据根据地区进行聚集后,分析者可以很快得到某个地区的销售量。
12.概括
计算某些字段(或者维)的总量。
13.粒度
数据的细化程度,数据仓库设计的最重要的问题。可以将数据划分为原子级粒度(单个事务级)、轻度综合和高度综合。
14.事实表
多维数据分析中分析查询的目标,多维分析中,维表提供约束,事实表提供答案。
15.分割
将事实表根据一定标准(如访问频率)分成更小的单位。对大的事实表进行分割可以提高查询速度,事实表可以根据时间、业务范围进行分割。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。