图5-3 综合DW技术、OLAP技术和DM技术的体系架构图
综合DW技术、OLAP技术和DM技术的决策支持系统体系架构如图5-3所示。DW用于数据的存储和组织;OLAP集中于数据的分析;DM则致力于知识的自动发现。它们可以分别应用,以提高相应部分的处理能力。
各个业务数据库的数据通过提取、清理、装载和刷新后按照不同的主题存放在数据仓库中,原先存放在各个业务系统中的反映企业局部情况的数据经过整理后转换成反映企业整体情况的信息,这样就完成了从“数据—信息”的转变。
存放在数据仓库中的信息通过OLAP和DM处理后,形成带有规律性的能够对企业运营提供指导意义的知识,从而完成从“信息—知识”的转变。企业的决策层可以利用OLAP和DM处理得到的知识制定相应的策略,并反馈到业务系统中,最终改善企业的运营。
5.1.2.1 数据仓库
1. 数据仓库定义
W.H.Inmon将数据仓库明确定义如下:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用来支持经营管理中的决策制定过程。”
数据仓库是数据库技术的一种新的应用。传统数据库主要用于日常事务处理工作,存放在数据库中的数据基本符合操作型数据的特点;建立数据仓库并不是要取代事务处理数据库,其目的是对企业内、外部数据进行有效集成,提供给企业各层决策者使用,存放在数据仓库中的数据基本符合分析型数据的特点。而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。如图5-4所示。
图5-4 数据仓库体系化环境图
2. 数据仓库的几个重要概念
(1)ETL(Extract/Transformation/Load):数据装载、转换、抽取工具。
(2)元数据:关于数据的数据,用于构造、维持、管理和使用数据仓库,在数据仓库中尤为重要。
(3)维:数据仓库用多维数据库结构建模。其中,每一维对应模式中的一个或一组属性。
(4)数据立方体:也称多维数据集。它是一个包含用户需要观察数据的集合体。立方体作为基本事务的聚合,是一种适合进行查询的完整的数据结构。如图5-5所示。
图5-5 数据立方体图
(5)粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。
(6)分割:数据分散到各自的物理单元中去,它们能独立地处理。
3. 数据仓库特点
数据仓库具有以下四个不同于一般操作型数据库的特点,如表5-1所示。
表5-1 操作型数据和分析型数据的分析
(1)面向主题。数据仓库中的数据是面向主题的,主题是在较高层次上将数据综合、归类并进行分析利用的抽象,在逻辑意义上,它对应于企业针对某一宏观分析领域所设计的分析对象。数据仓库主要是基于关系数据库来实现的,主题的表和视图的内容本质上与各运行系统数据源的数据一致。为了便于对数据进行分析和处理,需对数据结构进行重组。
(2)集成的数据。数据仓库是从分散的子系统中提取数据进行统一和综合。数据仓库主题对应的源数据在分散数据库中有许多重复或不一致的地方,数据仓库要通过对数据进行综合、计算、抛弃、增加,将其转换成全局统一的定义,解决多数据源和数据一致性的问题。
(3)数据相对稳定。数据仓库中的数据反映的是一段相当长时间内历史数据的内容,是不同时间数据库快照的集合及基于这些快照进行统计、综合和重组的导出数据,不是简单的联机处理数据。数据被放到数据仓库以后,最终用户一般只能通过分析工具进行查询、分析,而不能修改其中存贮的数据。可以说数据仓库在一定时间间隔内是稳定的。
(4)数据随时间不断变化。数据仓库存储的是企业的历史数据,当前数据要定期性地转换成历史数据,在更高的层次上不断综合,陈旧、查询率低的数据要从数据仓库脱离,转存到廉价慢速设备上,对分析处理不再有用的数据要从数据仓库中删除。
4. 数据仓库逻辑体系结构
数据仓库逻辑体系结构如图5-6所示,可以表述为四个 层次。
图5-6 数据仓库逻辑体系结构图
(1)数据集中层。数据集中平台实现的是数据集中层的业务,负责将现有的业务系统的数据经过抽取、清洗、上传、汇总并加载到数据中心。
(2)数据存储层/数据分析。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。数据存储层存放由源数据抽取而按主题归类的分析数据,数据的组织形式按星型结构。
(3)数据展现层。数据表现是数据仓库的门面,主要集中在多维分析、数理统计和数据挖掘方面,为最终用户提供联机分析和动态报表处理功能,并以丰富的界面以及灵活的定义方式为数据的展现提供支持。
(4)运维管理层。提供用户权限管理、系统维护和开发环境管理。
5.1.2.2 联机分析处理技术
数据仓库是一种管理决策分析的基础。若要有效地利用数据仓库的信息资源,须有能对数据仓库中的信息进行分析决策的强大工具。OLAP就是一种得到广泛应用的专门用于支持复杂的决策分析的数据仓库使用技术。它可以根据信息管理、业务管理等分析人员的要求,迅速、灵活地对大量数据进行复杂的查询处理,并以直观的、容易理解的形式将查询结果提供给各种决策人员使用。
1.OLAP的发展
联机分析处理技术(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而简单查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。这一类技术也就与OLTP有了完全的区分,如表5-2所示。
2.OLAP定义
定义1 :OLAP是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
表5-2 OLAP与OLTP的区别
定义2 :OLAP是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)。
OLAP技术主要有两个特点:一是在线性(On-Line),表现为对用户请求的快速响应和交互式操作,它的实现是由客户机/服务器体系结构完成的;二是多维分析(Multi-Analysis),这也是OLAP技术的核心所在。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,OLAP也可以说是多维数据分析工具的集合。
如图5-7所示OLAP的多维分析是将数据想象成多维的数据立方体,用户的查询相当于在其中的部分维(棱)上施加条件,对数据立方体用切片、切块、聚集、钻取、旋转等方式进行分析,使用户从多个角度、多个侧面去观察数据仓库中的数据,得到的结果是数值的矩阵或向量,可将其制成图表展现或输入数理统计的算法。OLAP的展现方式很多,主要有多维报表和图形方式两类,图形方式包括饼图、柱状图、等高线图、立体曲线图等。
图5-7 联机分析数据处理示意图(www.xing528.com)
5.1.2.3 数据挖掘
1. 从数据库中发现知识与数据挖掘
从数据库中发现知识(knowledge discovery in database,简称KDD)是近年来国际上较为活跃的研究领域,也是人工智能与数据库技术相结合的产物。数据挖掘是KDD过程的核心,它应用一些专门算法从数据中抽取出有效的模式,能从大量数据中发现潜在规律,以提取有用知识。KDD过程包括数据清理、数据集成、数据选择、数据转换、数据挖掘、模式评估、知识表示等步骤,各个步骤之间相互影响,反复调整,形成螺旋式的上升过程,如图5-8所示。
(1)数据清理。消除噪声或不一致数据。
(2)数据集成。将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等。
(3)数据选择。根据用户要求,利用一些数据库操作对数据进行处理,从数据库中提取出需要挖掘的数据集合。
(4)数据转换。进行离散值数据与连续值数据之间的相互转换,数据值的分组、分类,数据项之间的计算组合等操作。
(5)数据挖掘。基本步骤,运用选定的数据挖掘方法,从数据中提取用户需要的知识。
(6)模式评估。根据最终用户的决策目的对提取的知识进行分析,把最有价值的信息区分出来。
图5-8 从数据库中发现知识过程图
(7)知识表示。把知识以能被人理解的方式表达出来,提交给用户。
2. 数据挖掘定义
数据挖掘是从大量不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识,并将其表示成最终能被人理解的模式的高级过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;发现的知识支持特定的被发现的问题。数据挖掘工具与传统数据分析工具的比较如表5-3所示。
表5-3 数据挖掘工具与传统数据分析工具的比较
3. 数据挖掘与数据仓库、OLAP之间的关系
数据挖掘成功的关键是要访问正确、完整和集成的数据,在此基础上才能进行深层次的分析,寻求有益的信息。而这正是数据仓库、OLAP所能够提供的,数据仓库是集成数据的一种最好方式,OLAP则为数据挖掘提供了一个极佳的操作平台。数据挖掘与数据仓库、OLAP紧密联系在一起,将会取得意外的成功。
(1)与数据仓库、OLAP结合可以使数据挖掘免除数据准备的繁杂过程。
(2)数据仓库、OLAP可以提供数据挖掘过程所需要的数据处理和分析工具。
(3)数据仓库、OLAP可以为数据挖掘提供数据下钻、上卷、旋转、切块、切片等数据操作支持,同时OLAP的可视化功能还可以为数据挖掘过程和挖掘结果提供良好的操作 平台。
(4)三者结合,可以增强数据挖掘的联机挖掘功能。
4. 数据挖掘体系结构
数据挖掘系统可以大致分为三层结构,如图5-9所示。第一层是数据源,包括数据库和数据仓库。数据挖掘不一定要建立在数据仓库的基础上,但如果数据挖掘与数据仓库协同工作,将大大提高数据挖掘的效率;第二层是数据挖掘工具,利用数据挖掘方法分析数据库中数据,包括关联分析、时间序列模式分析、分类分析、聚类分析等;第三层是用户界面,使获取的信息以便于用户于是解和观察的方式反映给用户,可以使用可视化工具。知识库存放专业领域知识,用于指导数据准备或数据挖掘结果的评估。
图5-9 数据挖掘体系结构图
5. 数据挖掘模式
(1)分类模式。对已知类别的个体进行归纳,提取出具有代表群体的特征属性。
(2)回归模式。用所分析对象属性的历史数据预测未来 趋势。
(3)时间序列模式。根据数据随时间变化的趋势预测将来值,其中要考虑时间的特殊性。
(4)聚类模式。把数据划分到不同的组中,组与组之间的差别应尽可能大,组内的差别应尽可能小。其应用不需要太多的先验知识。
(5)关联模式。描述事物之间的依赖或关联关系。
(6)序列模式。把数据之间的关联性与时间联系起来,发现的规则也与时间有关。
在解决实际问题时,经常要同时使用多种模式。
6. 数据挖掘主要算法
数据挖掘的许多方法来源于机器学习。机器学习、模式识别、人工智能领域的常规技术,如统计、聚类、决策树等方法经过改进均可用于数据挖掘,主要有:统计分析方法、决策树方法、神经网络方法、覆盖正例和排斥反例、粗糙集、概念树、遗传算法、公式发现、模糊集和可视化技术等方法。
7. 常用数据挖掘工具介绍
按使用的技术可以分成统计分析类、知识发现类和其他类型的数据挖掘技术三大类。统计分析类是数据挖掘技术中最成熟的一种,已经得到广泛的应用,统计分析使用的数据挖掘模型有线性分析和非线性分析、回归分析、时间序列分析、聚类分析等。
按应用范围主要分为两类:特定领域的数据挖掘工具和通用型的数据挖掘工具。特定领域的数据挖掘工具针对某个特定领域的问题提供解决方案,往往采用特殊性的算法,处理特殊的数据,实现特殊的目的,发现知识的可靠程度也较高。通用型的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法处理常见的数据类型,可以实现多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用需求来 选择。
SPSS(Statistical Package for the Social Science)是世界上最著名的统计分析软件之一,它集数据文件管理,统计数据的编辑、处理、分析,统计分析报告生成、各类型统计图表生成以及统计编程等诸多功能于一身,涵盖了统计学的所有常用的统计方法。目前,SPSS已经广泛应用于社会经济统计、工程技术、国防科技、管理科学、医疗卫生以及教学科研等领域,是统计、计划、管理等部门实现科学管理决策的有力工具。
SPSS具有以下主要特点:
(1)工作界面友好完善、布局合理、操作简便,大部分统计分析过程可以借助鼠标,通过菜单命令的选择、对话框参数设置,点击功能按钮来完成,不需要用户记忆大量的操作命令。菜单分类合理,并且可以灵活编辑菜单以及设置工具栏。
(2)具有完善的数据转换接口,可以方便地和Windows其他应用程序进行数据共享和交换。可以读取Excel、FoxPro、Lotus等电子表格和数据库软件产生的数据文件,可以读取ASCII数据文件。
(3)提供强大的程序编辑能力和二次开发能力,方便高级用户完成更为复杂的统计分析任务的需要,具有丰富的内部函数和统计功能。
(4)具有强大的统计图绘制和编辑功能,且增强了三维统计图的绘制功能,图形更为美观大方,输出报告形式灵活、编辑方便易行。
(5)附带丰富的数据资料实例和完善的使用指南,为用户学习掌握软件的使用方法提供更多的方便。软件启动后,用户可直接上网访问SPSS公司主页获得更多的帮助和信息,如图5-10所示。
图5-10 SPSS的主对话框图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。