(1)数据仓库特征
数据仓库(Data Warehouse)简称“DW”或“DWH”,由数据仓库之父Bill Inmon 在1990 年提出,是依照分析需求、分析维度和分析指标进行设计的,可以容纳海量数据集,主要用于数据挖掘和数据分析。数据仓库具有面向主题、数据集成、不可更新、随时间变化的特点,用于支持管理决策。
1)数据仓库面向主题
数据仓库中的数据是按照一定的主题域进行组织的。主题是企业系统信息中的数据综合、归类并进行分析的一个抽象。
2)数据仓库数据集成
数据仓库中的数据是在对原有分散的数据库数据经过大量的数据抽取和数据清洗的基础上,再经过系统加工、汇总和整理得到的,消除源数据中的不一致性,保证数据仓库中的信息是一致的全局信息。
3)数据仓库不可更新
数据仓库中的数据反映的是一段较长时间内历史数据的内容,主要用于数据查询,以提供决策分析作用,数据加入后一般不作修改,只能进行追加。
4)数据仓库随时间变化
数据仓库的数据随着时间变化不断删去旧的数据,增加新的数据,以反映历史变化。
(2)数据仓库和数据库的区别
数据仓库并不是所谓的“大型数据库”,它的建设目的是为了进一步从海量数据集中挖掘数据资源,从而进行决策。数据库一般称为联机事务处理OLTP(On-Line Transaction Processing),是面向事务设计的,数据量较少,在设计上应尽量避免冗余,可实现更新操作。数据仓库一般称为联机分析处理OLAP(On-Line Analytical Processing),是面向主题设计的,存储的一般是历史数据,在设计上期望冗余,不支持更新操作,只能读取和追加数据。(www.xing528.com)
(3)数据仓库的数据建模
数据仓库系统是一个信息提供平台,它从业务处理系统获得数据,主要以星型模型和雪花型模型进行数据组合,并为用户提供各种手段,从数据中获取信息和知识。
数据仓库的数据建模大致分为以下四个阶段:
1)业务建模
将整个单位按业务划分,界定各个部门之间的业务工作,对具体业务流程和方法进行建模。
2)领域概念建模
抽取关键业务概念,将其抽象化,并将业务概念分组聚类。
3)逻辑建模
逻辑建模包括业务概念实体化、事物实体化和说明实体化。
4)物理建模
根据具体的物理化平台、模型的性能和管理的需要对模型作出相应的调整,生成最后的执行脚本。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。