第一章 商业智能概述
1.1 什么是商业智能
商业智能,又称商务智能,英文为Business Intelligence,简写为BI。目前,学术界还没有统一的商业智能的定义。商业智能的概念于1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
在信息化高度发达的今天,商业智能被越来越多的企业所重视。但在IT业界,对于商业智能有着各种各样的叫法和理解,有人说商业智能就是数据仓库,也有人说商业智能就是做报表,如果从现有的工具和项目划分来理解,确实很容易陷入纷争。这里我们先来解释几个相关名词:
数据仓库,英文为Data Warehousing,简写为DW,是企业级分析型需求的公共数据源。
ETL是数据从业务系统抽取(Extraction)、转换(Transformation)和装载(Load)到数据仓库的过程[1]。
OLAP是联机在线分析(On-line Analytical Processing)[2]的简称,就是基于数据库、大数据的联机快速分析,分析一般指多维分析,可以根据维度汇总下钻等操作,主要特点还是要求快,数据量大,其他功能和Excel的数据透视表差不多。
数据挖掘:简单理解就是通过人工智能技术从海量数据里面提取有用知识。
直观的来说,商业智能指综合利用数据仓库和ETL技术、OLAP分析以及数据挖掘技术对数据进行有效的整合和存储,并对数据进行分析,提取出其中蕴藏的知识,从而帮助客户进行决策分析。
各大IT厂商如IBM、ORACLE、SAP、微软等著名企业都纷纷提供整体的BI解决方案和产品;具备一定规模的公司都已经或者准备做BI方面的工作。目前,BI已经为很多IT公司带来了实实在在的价值,腾讯公司在其官方访谈中也强调“数据挖掘”是其秘密武器;淘宝网借助BI技术实现的数据魔方、量子统计等产品具有强大的创收能力;焦点科技也通过BI技术实现了企业内决策管理的智能化,为企业的快速响应、精准决策提供了信息平台,另外在信息自动审核、网站效果优化等方面借助数据挖掘技术也已经取得了良好的效果,既可以对内提升企业效率,又可以对外帮助客户提升推广效果。
1.2 商业智能在国内应用背景
本节主要基于国内传统行业以及新兴的互联网行业的具体情况来谈商业智能的出现和应用背景,避免使用国外的经典案例和空泛的理论。以下经验都是团队成员在从事BI的工作中曾经遇到和处理过的实际问题。
1)急切的分析型需求
中国经济经历90年代以来快速发展的20年,涌现出了一大批有财力、有活力的公司,特别是改制后的垄断企业、沿海知名民营企业整体建设都逐步向国际领先企业靠拢,在2000年前后都陆续积极建设核心业务系统,电讯行业的计费系统、生产制造的MES、零售分销行业的ERP系统等都基本在这一时期快速得于实现,这些系统让操作人员在工作流程化规范化方面取得了长足进步,资金流得到严格控制和监管。
随着这些系统的完善特别是业务系统数据的积累,公司管理决策者以及业务分析人员越来越发现基于业务系统基础数据的各种分析对科学地制定企业管理决策非常有帮助,在工作过程中有越来越依赖系统数据的趋势,这一时期其分析工作普遍是如下流程:
•先从业务系统导数据到Excel,然后通过灵活的Excel进行加工,最后生成报表。
•生成的报表除了支持客户自身的工作之外,还需要传递给相关部门和领导,辅助管理决策。
在这个分析过程中普遍存在下面一些突出问题。
•业务系统压力大:业务系统数据量越来越大,从业务系统查数据导数据越来越慢,并且频繁的导出数据给业务系统带来巨大压力,甚至已经影响到业务系统正常使用。
•手工报表耗时长:导入数据,再加上Excel数据加工时间,通常出个周报、月报最少需要1~2天时长,耗时太长。
•数据不统一:每个部门都有分析人员,大家都在各自出报表和做分析,数据和分析结果难于共享,并且汇总的数据也常常容易产生矛盾,数据不统一。
•决策难于深化:大量时间在做数据处理,没时间分析,分析发现问题之后难于做相关分析,需要持续投入大量时间,最终造成员工很忙、领导很急的状况。
•在电子商务行业,其核心数据还是一些日志,比如访问日志、搜索日志等,这些数据蕴藏着丰富的用户行为,但其特点就是数据量大,利用Excel来处理数据、分析数据已经完全不可能,所以这时候分析往往只能退而求其次,比如通过用户量这些小数据来近似把握运营情况,从而企业要做到精细化运营、精确化服务基本无从谈起。
这些问题在业务系统运营之后都存在,并且随着时间的推移,特别对于快速发展的公司来说,随着数据量的激增,问题更加明显。
2)企业精细化管理需要BI支撑
精细化管理的核心思想还是快、精、准,这几个基本要求都需要BI的强力支撑。
•快,要求自上而下的实时把控,第一时间发现问题需要BI支持。特别是高层领导,对整个公司的重大问题都需要在发现问题的第一时间就能够把各种流程控制系统里面的业务数据提取出来进行进一步的分析,发现导致问题发生的异常点,以便及时处理问题。
•精,能对问题追根溯源,需要BI的向下钻取、向上汇总、交叉分析、关联分析等基本技术支撑,否则发现问题也不知道原因在哪里。
•准,要求问题落实到人,问题出在谁身上,谁该受到惩罚,谁该进行工作改进,这些问题需要BI对组织架构进行多层级分析。
3)数据里面的知识可以帮助企业进行优化升级
数据—知识—操作—数据这样一个信息闭环其实就是实践—总结—再实践的一个螺旋式上升过程,在这个过程中如果缺少数据到知识的一步那就是简单重复的操作,而加入知识总结这样一个分析之后的实践,则是有提升的实践,其必然结果是促进我们工作不断得到修正和优化。
4)知识还可以产品化
在电子商务行业,BI用处还不太一样,传统行业的BI主要集中在企业内报表和分析,而电子商务行业不论是B2B还是B2C,BI的主要用处还是支持网站用户的需求。知识可以提升网站的友好性,让网站设计者了解用户的习惯和行为,设计符合用户操作的流程和功能;根据买家的行为提供个性化的商品推荐可以帮助用户提升工作效率和采购效果,提升他们对网站的认可度;另外对于卖家来说在网站进行推广之后,他们迫切希望知道有没有效果,改进机会在哪里。
这些需求通过BI从数据里面提取知识,这些知识将提升网站对买卖双方的支持能力,在这个过程中也可以对部分知识进行产品化,从而为电子商务企业在搜索排名等功能性收费之外创造第二条盈利模式——知识收费,这点淘宝做得比较充分,数据魔方是其典型代表。
1.3 商业智能发展历史和国内应用现状(www.xing528.com)
1946年第一台电子计算机问世,这意味着信息时代即将来临。
1946年人类历史上第一台电子计算机问世,随之而来的是全球信息化的到来,计算机在世界的各行各业扮演着越来越重要的角色,信息从纸质的书本、文档中转移到计算机中,并通过网络进行共享、互动。
20世纪80年代,各行各业实施了众多的信息系统,提高了企业的信息传播速度,提升了工作的效率,随着信息系统的逐步完善、成熟,企业不仅仅满足于计算机带来的流程的便捷和信息的积累,他们想利用信息系统中的信息来辅助高层决策,这就是商业智能系统产生的原因。
20世纪90年代,数据库技术的高速发展,使得多维分析工具逐步进入商用,打破了商业智能技术上的瓶颈,随后,其发展取得了前所未有的加速度,并在21世纪的第一个十年蓬勃发展。
过去10年电子商务在国内一样大获成功,全面进入规模企业,也必将在未来有更深入的应用,因为BI的厂商和核心技术基本在国外,这里我们主要从应用角度来总结了一下BI的发展情况。
2000年至2004年,国内BI应用还是初期阶段,主要是一些国有大型企业在进行尝试,其中较为明显的成果是建立起数据仓库,OLAP分析也获得一定应用,特别是出报表方面已经凸显BI的价值;在这个时期通过一些先行者的BI实施带来了BI整体的解决方案和实施技术,为后期BI快速推广积累了技术和人才基础,其中一些先行的软件外包公司形成了强大的BI实施能力;这个时候国内规模企业也逐步开始接触BI,慢慢知道了什么是数据仓库、ETL、OLAP、数据挖掘等;BI方案虽然在这个阶段比较成熟,但产品还是参差不齐,总体来讲数据仓库及ETL基本可以满足需要,而OLAP工具实施效果仍然是BI项目最大风险,数据挖掘基本还处于概念阶段。
2004年至2008年国内BI进入全面发展及应用阶段。基本上有一定规模的企业都开始实施BI,跨国公司的中国本部也开始实施本土BI;OLAP分析在这个阶段达到比较高的水平,OLAP产品都有不同程度的升级,功能上基本能满足用户的需求,虽然性能还是一个瓶颈,但BI项目经过合理设计及实施普遍对企业分析效率和分析能力有较大提升,一些领先企业还实现了企业自上而下的全面BI分析应用,高层仪表盘,中层OLAP分析,基层工作的监控、预警及考核;另外数据挖掘在这个时期得到切切实实应用,在银行、通信、大型网站等海量数据行业的企业为了自身安全或者核心竞争力的塑造都开始在挖掘上有投入,并且取得了不少成果,这些经典案例也为接下来数据挖掘在国内推广及应用打下基础,让数据挖掘从概念性阶段进入实实在在应用阶段。这个时期在国内BI应用中还必须提及一些世界级的软件公司,国外有IBM、HP、Bearing Point及印度几大软件外包公司等,国内有东南融通、文思创新、华为等都在BI方面提供强大的BI解决方案和实施能力,为国内的BI普及及应用提供了技术上的保证。
2008年之后BI应用开始往系统化发展,不仅注重知识的提取,更注重知识的应用及系统化封装。这个时期BI应用产生了新的分支,即分析型流程定制(Analytic Processing),其目标就是在工作流程中加入分析支持,提升业务操作的能力和效率,实现分析结果的流程化应用。2008年后数据挖掘开始得到深入应用,2000年之后各大院校及培训机构培养的数据挖掘人才在这个阶段充分得到机会,特别是在电子商务等大数据行业,数据挖掘的应用已经非常普遍。在产品上也呈现出几大趋势,BI原始厂商纷纷被收购,BI产品和技术处于大融合阶段,几大厂商都能够提供整体BI解决方案,特别是IBM。技术上最大机会还就是内存OLAP技术和云计算,前者让OLAP体验更佳,后者让ETL及查询更快。
2010年之后的10年内笔者认为主要还是云计算带来技术架构升级和基于成熟BI应用的企业级管理提升。云计算让企业海量数据分析不再是挑战,也将给我们数据仓库、ETL设计带来技术上的升级,现在流行的Hadoop技术就是一个例子。技术创新带来的管理变革是必然,不管是企业基于绩效管理的内控,还是基于分析挖掘的业务执行能力都将得到系统化的提升,BI技术系统化的必然结果就是实现执行—数据—知识—优化执行的信息闭环,在管理上不仅信息获取更及时,甚至实时,更能提升我们决策分析的能力,让知识来指导和帮助我们提升工作效率。
1.4 商业智能相关技术介绍
虽然BI产品过去10年让人眼花缭乱,但从基本技术来讲还是比较稳定,基本可以分为数据仓库、ETL、OLAP和数据挖掘。
1)数据仓库
数据仓库(Data Warehouse,简称DW),就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域,数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变;数据仓库的稳定性是指数据仓库反映的是历史数据,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。
数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其他数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库还是用关系数据库管理系统来管理其中的数据。
2)ETL
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Inteltigence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,占整个项目的60%~80%,这是国内外从众多实践中得到的普遍共识。
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程,是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理(OLTP)的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每两到三年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占总数据量的2%~4%。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL就是主要的一个技术手段。
3)多维分析
多维分析(OLAP-Online Analysis Processing,联机分析处理)是一种获取、分析数据的技术,是指根据业务需要,从数据库中提取相关业务数据,并且对所提取的数据进行不同角度(指标),不同深度(维度)的分析,最终形成多维业务报表,并根据报表中数据的客观规律,发现数据中的趋势和异常,给决策者提供科学的决策依据。大家常见的Excel数据透视表就是比较简单的OLAP分析工具。
4)数据挖掘
数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Databases,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互[3]。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。
数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息[4]。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。
1.5 小结
商业智能,又称商务智能,英文为Business Intelligence,简写为BI。商业智能指综合利用数据仓库、ETL技术、OLAP分析以及数据挖掘技术对数据进行有效的整合和存储,并对数据进行分析,提取出其中蕴藏的知识,从而帮助客户进行决策分析。
业务系统的完善使操作人员在工作流程化规范化方面取得了长足进步,然而随着时间的推移,业务系统积累了大量的数据,这些数据包含了对管理决策和优化工作流程的信息。然而,使用传统的手工报表方式,却难以从业务系统的数据中完整和准确地获取有用的信息,这样既不能帮助企业深化决策,也不能支持企业的精细化管理,而这一切将在引入商业智能以后得以有效解决。商业智能对数据进行知识化提取是企业优化升级的必然需求,并且对于电子商务行业来说,BI对于买家和卖家的支持可以提升网站的客户满意度,甚至于利用BI技术开发出数据分析产品,帮助企业开创新的盈利模式。
2000年至2004年,是国内商业智能应用的初期,主要是建立起数据仓库和OLAP分析的初级应用,数据挖掘应用基本还处于概念阶段。2004年至2008年,国内BI进入全面发展和应用的时期,OLAP分析达到了比较高的水平,数据挖掘在银行、通信、大型网站等海量数据行业取得了许多切实的应用成果。2008年之后BI应用开始往系统化发展,并且产生了新的分支即分析型流程定制(Analytical Processing),此时数据挖掘也开始得到了广泛和深入地使用。笔者认为2012年之后的10年内,云技术将带来BI技术架构升级和基于成熟BI应用的企业级管理提升。
商业智能涉及的相关技术有数据仓库、ETL技术、多维分析和数据挖掘:
数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合。
ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。
多维分析(OLAP-Online Analysis Processing,联机分析处理)是一种获取、分析数据的技术。
数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Databases,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。