1)数据仓库定义及特点
数据仓库之父比尔·恩门在《建立数据仓库》一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,并不是所谓的“大型数据库”。数据仓库的方案建设是以前端查询和分析作为基础,由于有较大的冗余,因此需要的存储空间也较大。
为什么要建立数据仓库?企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是事务型数据和决策支持型数据的处理性能不同。
企业在它们的事务操作中收集数据。在企业运作过程中,随着订货、销售记录的进行,这些事务型数据也连续产生。为了引入数据,必须优化事务型数据库。
处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少呢?在某一段时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客户又削减了他们的购买额呢?
事务型数据库可以为这些问题解答,但是它所给出的答案往往并不能让人十分满意。在运用有限的计算机资源时常常存在竞争。在增加新信息的时候人们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。
数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。
另外,企业日常运作的信息系统一般是由多个传统系统、不兼容数据源、数据库与应用所共同构成的复杂数据集合,各个部分之间不能彼此交流。建立数据仓库的目的就是要把这些不同来源的数据整合组织起来统一管理,从而做到数据的一致性与集成化,提供一个全面的、单一入口的解决方案。
根据以上描述,总结以下数据仓库特点:
(1)主题性
操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
(2)集成性
数据仓库的数据有来自分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库。
(3)稳定性
数据仓库中的数据主要为决策者分析提供数据依据。决策依据的数据是不允许进行修改的。即数据保存到数据仓库后,用户仅能通过分析工具进行查询和分析,而不能修改。数据的更新升级主要都在数据集成环节完成,过期的数据将在数据仓库中直接筛除。
(4)动态性
数据仓库数据会随时间变化而定期更新,不可更新是针对应用而言,即用户分析处理时不更新数据。每隔一段固定的时间间隔后,抽取运行数据库系统中产生的数据,转换后集成到数据仓库中。随着时间的变化,数据以更高的综合层次被不断综合,以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分析无用时,从数据仓库中删除这些数据。关于数据仓库的结构和维护信息保存在数据仓库的元数据(Metadata)中,数据仓库维护工作由系统根据其中的定义自动进行或由系统管理员定期维护。
同时数据仓库在效率、质量和扩展性方面要求很高。效率要求高,要求看到24 小时的数据分析;质量要求高,否则错误的信息会导致错误决策,引起损失;扩展性要求高,考虑到未来3 ~5 年的数据扩张,保证系统稳定运行。
2)数据仓库的数据来源
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL[抽取(Extra),转化(Transfer),装载(Load)]的过程,ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
ETL是数据仓库的流水线,也可以认为是数据仓库的血液,维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。
3)数据处理
数据仓库基于维护细节数据的基础对数据进行处理,使其真正地能够应用于分析。它主要包括以下3 个方面。
(1)数据的聚合
它指的是基于特定需求的简单聚合(基于多维数据的聚合体现在多维数据模型中),简单聚合可以是网站的总Pageviews、Visits、Unique Visitors等汇总数据,也可以是Avg.time on page、Avg.time on site等平均数据,这些数据可以直接地展示于报表上。
(2)多维数据模型
多维数据模型提供了多角度多层次的分析应用,比如基于时间维、地域维等构建的销售星形模型、雪花模型,可以实现在各时间维度和地域维度的交叉查询,以及基于时间维和地域维的细分。因此,数据仓库面向特定群体的数据集市都是基于多维数据模型进行构建的。
(3)业务模型
这里的业务模型指的是基于某些数据分析和决策支持而建立起来的数据模型,如前面介绍过的用户评价模型、关联推荐模型、RFM 分析模型等,或者是决策支持的线性规划模型、库存模型等;同时,数据挖掘中前期数据的处理也可以在这里完成。
4)数据仓库的数据应用
(1)报表展示
报表几乎是每个数据仓库必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表中,提供最为简单和直观的数据。
(2)即时查询(www.xing528.com)
理论上数据仓库的所有数据(包括细节数据、聚合数据、多维数据和分析数据)都应该开放即时查询,即时查询提供足够灵活的数据获取方式,用户可以根据自己的需要查询获取数据。
(3)数据分析
数据分析大部分基于构建的业务模型展开,当然也可以使用聚合的数据进行趋势分析、比较分析和相关分析等,而多维数据模型提供多维分析的数据基础;同时从细节数据中获取一些样本数据进行特定的分析也是较为常见的一种途径。
(4)数据挖掘
数据挖掘用一些高级的算法可以让数据展现出各种令人惊讶的结果。数据挖掘可以基于数据仓库中已经构建起来的业务模型展开,但大多数时候数据挖掘会直接从细节数据上入手,而数据仓库为挖掘工具诸如SAS、SPSS等提供数据接口。
在国内较优秀的互联网公司(如阿里、腾讯)里,很多数据引擎是架构在数据仓库之上的(如数据分析引擎、数据挖掘引擎、推荐引擎、可视化引擎等)。开发成本应更多集中在数据仓库层,不断加大数据建设的投入。因为一旦规范、标准、高性能的数据仓库建立好了,在之上进行数据分析、数据挖掘、运行算法等都是轻松惬意的事情。反之如果业务数据没梳理好,各种混乱数据会让人焦头烂额,苦不堪言。
5)数据挖掘
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又潜在有用的信息和知识的过程。
数据挖掘不同于传统的数据分析,如与查询、报表、联机应用分析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用3 个特征,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。因此数据挖掘与传统分析方法有很大的不同。
数据挖掘是一门交叉学科,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术,并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
6)数据仓库与数据挖掘的关系
数据仓库和数据挖掘都是数据仓库系统的重要组成部分,它们既有联系,又有区别。
(1)数据仓库与数据挖掘的联系
①数据仓库为数据挖掘提供了更好的、更广泛的数据源。
②数据仓库为数据挖掘提供了新的支持平台。
③数据仓库为更好地使用数据挖掘这个工具提供了方便。
④数据挖掘为数据仓库提供了更好的决策支持。
⑤数据挖掘对数据仓库的数据组织提出了更高的要求。
⑥数据挖掘为数据仓库提供了广泛的技术支持。
(2)数据仓库与数据挖掘的区别
①数据仓库是一种数据存储和数据组织技术,提供数据源。
②数据挖掘是一种数据分析技术,可针对数据仓库中的数据进行分析。
7)数据仓库与数据挖掘在商业领域中的应用及现实意义
(1)商品销售
商业部门把数据视作一种竞争性的财富可能比任何其他部门显得更为重要,为此需要把大型市场营销数据库演变成一个数据挖掘系统。科拉福特食品公司(KGF)是应用市场营销数据库的公司之一,该公司搜集购买它商品的3 000 万个用户的名单,这是KGF通过各种促销手段得到的。KGF定期向这些用户发送名牌产品的优惠券,介绍新产品的性能和使用情况。该公司体会到了解自己商品的用户越多,则购买和使用这些商品的机会也就越多,公司的营业状况也就越好。
(2)制造
许多公司不仅将决策支持系统用于支持市场营销活动,而且由于市场竞争越演越烈,这些公司已使用决策支持系统来监视制造过程,有制造商声称已经指示它的各个办事机构,在3 年内把制造成本每年降低25%。不言而喻,该制造商经常收集各部件供应商的情况。因为他们也必须遵循该制造商降低成本的战略。为了迎接来自各方的挑战,该制造商已拥有一套“成本”决策支持系统,可以监视各供应商提供的零部件成本,以实现所制定的价格目标,这种应用需要收集有关各厂商连续一年来的产品成本信息,以便确定这种组织方式能否满足原先制定的有关降价的战略目标。
通用汽车公司(General Motors)已经采用信用卡——GM 卡,在该公司的数据库中已拥有1 200 万个持有信用卡的客户。公司通过观察,可以了解他们正在驾驶什么样的汽车,下一步计划购买什么样的汽车及他们喜欢哪一类车辆。譬如说,一个持有信用卡的客户表示对一种载货卡车感兴趣,公司就可以向卡车部门发出一个电子邮件,并把该客户的信息告诉有关部门。
(4)远程通信
许多远程通信的大公司近来突然发现它们面临极大的竞争压力,这在几年前是不存在的。过去业务上并不需要它们密切注视市场动向,因为顾客的挑选余地有限,但是这种情况近来发生很大变化。各公司当前都在积极收集大量的顾客信息,向它们现有的客户提供新的服务,开拓新的业务项目,以扩大它们的市场规模。从这些新的服务中,公司在短期内就可以取得更大的效益。
数据仓库给组织带来了巨大的变化。数据仓库的建立给企业带来了一些新的工作流程,其他的流程也因此而改变。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。