BI项目成功的关键点在于技术、业务、项目管理等问题,而电子商务行业还必须面临两个问题:大数据和对外用户分析支持。这里笔者列了九个最为重要的关键点,对每个关键点力求给出解决方案。
6.1 是否有强大的BI技术架构?
既能满足自身当前需求,同时又能长远立足的强大技术架构才是我们需要的。当前BI技术已经较为成熟,技术架构也已经较为成熟,一个电子商务公司的企业级BI技术架构最起码要包括标准数据源接口、ODS、数据仓库、数据集市、业务系统接口这样五层,尽管这五层会有很多细节,并且不同人设计都会有些差异,但是每一层在目标上是基本一致的,这里我们从目标和定位来理解现有的技术架构。
(1)标准数据源接口:解决系统取数据的问题,可以是直接数据接口,也可以是文本、HTML等格式,不管哪种方式都必须满足BI取数据的基本要求,特别是大数据表能够支持增量抽取数据,必须要有字段能够识别新老数据;另外数据接口要求稳定,数据库接口要求顺畅,文本等数据要求能够及时抵达。
(2)ODS:这个层是辅助作用,首先是减轻对数据源抽取数据的压力,一般设计采用和源完全一样的数据结构,实现表与表之间的一一映射;其次是可以为转换做些预处理、数据清洗等工作,这样便于ETL进数据仓库的时候简单高效,不用为繁杂的算法及异常处理考虑太多;最后,ODS还是将来实时报表与分析的直接数据入口,因为ODS的设计简单这样既可以对数据源进行无压力实时抽取,又能让分析压力转移到ODS上来,因为数据从ODS转换加载到数据仓库往往时间较长,所以基于ODS实时分析较为可行。
(3)数据仓库:主题分割、合理粒度和维度建模是数据仓库设计面临的主要问题;一般建议数据仓库需要按照主题适当分割进行设计和实施,特别是在表设计上要保持独立业务的表结构独立性,事实表尽量单一,尽量不要有跨主题业务数据间联合表出现,否则很容易在数据仓库层面陷入设计混乱,造成数据不一致;粒度选择一般还是尽可能的明细,尽可能的存放更长时间的数据,这样理论上可以满足将来尽可能多的需求,但事实上电子商务行业数据非常巨大,所以粒度选择是必然的问题,存放时间也不得不做出选择;最新的分布式技术有望采用低成本的PC机实现大数据在数据仓库的存储,这方面技术有望在三年内进入成熟的企业级应用,现在Greenplum的云计算在数据仓库的成功就是该技术方向的一个标杆案例;笔者比较推崇Ralph Kimball的维度建模思想,其中星形结构模型、维度代理关键字、扁平维度、维度字段冗余等理念具有非常高的实用价值。
(4)数据集市:数据集市的设计就是为了解决具体项目的数据存放问题,最大挑战还是系统的性能,为了保证性能有三个事情可以做:第一是去掉不相关数据,不要的字段、不要的记录就过滤掉;第二是把仓库明细数据汇总到合适粒度;最后就是根据分析需要建立起跨主题业务数据的联合表,解决跨主题事实大数据表之间的关联问题。
(5)业务系统:BI除了自身能提供分析报表之外,很多时候还要对业务系统提供有分析价值的数据,相当于来自业务系统的数据经过BI系统分析之后反馈结果给业务系统,这样BI就反过来支持业务系统操作人员的分析需求。
这五层在BI技术架构中都有明确的价值定位,只要确实理解了每个层的价值定位,即使在开发过程中方法会有区别,但最终走向还是殊途同归。
6.2 是否有大数据的存储设计能力?
大数据是电子商务企业不得不面对的问题,大数据带来最大挑战就是ETL性能差,查询慢,解决办法还就是分布式部署及数据模型合理设计。
分布式部署及云计算是解决大数据的有效方法,传统数据库比如ORACLE、DB2在大数据查询的时候I/O存在巨大瓶颈,简单增加CUP、内存等方式不仅成本较大,而且效果有限,而分布式或者云计算则可以让数据的I/O及运算压力分摊到不同机器上面,从而实现性能线性提升。
分布式开发当前还刚刚起步,开发要求较高,在这个阶段建议的是对数据量巨大的表(比如访问日志、搜索日志等大表)进行分布式部署,而小数据量的用户信息、产品信息等则可以继续存放在传统数据库里面;集市数据因为过滤、汇总等操作从而数据量得到了大大的削减,一般还是建议存放在传统数据仓库里面,这样便于前端应用的开发,当然像Hadoop、Greenplum等分布式技术也支持前端应用的开发,只不过对大部分人来讲会陌生些。
不管出现什么技术,合理的设计永远是需要的,其中数据模型设计尤为关键。ODS、数据仓库、数据集市表结构设计思想完全不一样,因为大家的价值定位也是不一样的。哪怕是同为数据仓库也是分为几层的,每一层设计也是有区别的。如图6.1所示,我们认为可以把BI数据模型设计分为九层,这九层定位各不相同,但层层递进。
图6.1 BI体系九层数据模型
下面是每一层的定位简单介绍。
(1)ODS:ETL的辅助层,提升ETL能力,减轻对源及DW的压力,简化ETL复杂程度。
①数据源Mapping层:目标是快速获得源数据到本地;Mapping层表结构和源尽量保持一致,这样更新的时候可以把对源的压力降低到最低点。
②数据清洗层:源数据过来之后还是要做一些检验,比如说唯一性检验、一致性检验、格式检验等,并进行校正,对于检验和矫正都要不断完善规则。这里的数据清洗和数据挖掘清洗意义不一样,数据挖掘清洗的往往是一些异常值,而这里的清洗就是清除掉不规范的数据,至于这个值为零或是很大都可以不管,只要符合业务规则就可以;当然也可以加入人工编辑来进行审核及纠正;这个层级对后面ETL不出错有很大帮助,可以保障数据仓库数据准时更新,另外对后面数据质量也是一个保证。数据清洗放在前面主要是因为这里的数据相对比较原始,有利于保证后面数据的统一性和正确性,并有利于追踪问题。
③数据预处理层:BI里面公认ETL比较复杂,很费心,调优难度大,为此很有必要在复杂处理之前做一些预处理,这层的价值定位就是为后面ODS数据ETL进入数据仓库做些处理,主要包括生成增量数据临时表、派生字段、派生联合表等;这些处理将有助于ETL数据到数据仓库变得简洁快速。
(2)数据仓库:定位为分析型需求的公共数据源,数据统一,粒度明细;下面我们看看里面各层在设计上怎么来提升数据仓库的能力。
①单主题明细层:这层是数据仓库最基本的数据层,数据分主题,优先采用星形结构的数据模型,这层的价值定位为基础数据层;不管任何需求都可以从这里找到需要的数据;这里要求数据全而准,并且结构化设计,应用性能其次考虑。
②单主题微小汇总层:明细数据直接拿来用的可能性一般不大,往往都需要汇总到一定粒度,一般来讲各种维度交叉汇总会比较多,这样我们可以把集市应用需求比较大的交叉汇总在数据仓库层面进行预备,这件事情就是这层要做的,通过一段时间BI项目实施后我们可以总结出部分这种微小汇总层,因为这个层次的存在,后面我们的数据处理中80%的数据可以从这里来,因为汇总对粒度的提升,数据的削减,从而带来了系统性能的大幅提升;不过要注意这里不同的汇总表会有一定冗余,要特别注意信息定义的一致性,如果信息定义发生变化要改一起改;这层的数据表需要根据应用不断丰富及完善。
③多主题应用汇总联合层:上面在仓库层面会进行一些单主题微小汇总,这个汇总是对应用支撑的初步准备,除了表太大影响性能之外,还有个问题就是跨表关联,特别是大表关联更是致命的,为此在仓库层面我们还可以设计一批跨主题表的数据联合,存放到新的表中,这部分数据应用更为彻底;典型的如数据挖掘中的客户视图,产品生命周期等宽表都是应用对象;这些表对象有大量应用,这样可以为很多集市提供统一数据,有利于各个集市数据的统一,减轻后期应用开发的难度,并且提高系统性能。
(3)数据集市:集市定位在具体项目及领域的应用,以完成项目最终需求为目的进行设计,不管是数据定义还是数据模型都需要保持足够的灵活性,这样便于修改,毕竟需求是多变的,里面也可以从三层来进行设计。
①单主题明细过滤层:面向未来,很多公司数据仓库和BI应用是相互独立的,这个思路值得肯定,所以对于每个项目来讲首先考虑的是自己项目集市需要保留一份相对明细的数据,以便将来需求的扩展及变动;如果空间不是问题,这层数据基本保持和仓库表数据一样粒度,但可以进行记录过滤,比如只取近两年制造业数据等;如果数据没必要太明细,并且数据量有点大,那么我们可以进行一定程度的汇总,将数据量汇总到可以接受的范围。
②单主题明细汇总层:虽然上一个层也可以进行汇总,但大家目标不一样,上一个层次汇总是为了减小数据量,这个层的汇总是为了更贴近应用,直接把数据汇总到适合应用的粒度;也可能是为后面的多主题汇总数据联合进行单主题数据的准备,这样通过减小数据量,有利于后面的数据联合。
③多主题汇总联合层:数据分析一般都需要多主题的联合分析,比如说供应链就是个多主题的联合问题,客户生命周期也是多主题联合问题;为此需要为前端联合分析提供对应的多主题数据联合表,并且汇总到应用需要粒度即可,没必要太过明细。
纵观上面九层,我们可以层层推进地设计数据模型,也可以根据数据量和应用的复杂程度有选择地对某些层次进行设计,其中灵活性比较大,但如果能理解每个层次的价值定位,这九个层次的设计会是一个整体,能够为BI系统模型提供整体而又独立的设计架构。
6.3 是否能构建适合公司自身的软硬件平台?
在BI产品市场中免费的产品较少,客观地说免费产品和收费产品还是有比较大的差距,所以选择软硬件平台意味着投资,难于随便更改,所以要非常慎重。当然也见过不少财大气粗的公司几乎把所有主流BI产品买了个遍,这种公司虽然钱不是问题,但最后在具体使用的时候一样需要做出选择。有效的做法还是从最终的效果要求来剖析我们到底需要什么软硬件配置,再结合当前的产品发展趋势来对软硬件进行选择。
(1)数据仓库及ETL选择:在电子商务行业,大数据带来的I/O问题始终制约着数据仓库访问和ETL处理性能,表结构的设计一方面可以提升整体性能,另一方面也是为了解决性能问题,但就表结构再怎么设计充其量也是优化,瓶颈最终还是软硬件配置和设计。这里我们先了解一下我们ETL每天更新的要求。
•优秀:2个小时以内。
•可以接受:不超过4个小时。
•不可接受:超过4个小时,需要考虑优化。
如果性能不可能接受,有下面一些办法进行调优。
•提升数据仓库服务器硬件配置:磁盘、CPU、内存、网络都可能是瓶颈,特别是硬盘,现在SAS盘价格还是比较贵,这个投资对电子商务行业这种大数据量来讲还是不小的投资。
•传统ETL工具的并行处理也可以进行优化,但其解决的问题始终还停留在ETL的抽取和计算过程,对于目标数据仓库的加载和应用查询还是无能为力,也就是说并不能彻底解决数据仓库整体性能问题。
•最好的办法就是分布式部署,云计算概念,典型代表就是EMC公司的Greenplum产品,且已经在数据仓库行业获得了成功,并且在2012年进入Gartner最具魔力象限,当然这套方案是要付费的;免费的Hadoop技术当前也流行,通过几十上百的普通PC分布式部署,把数据仓库大数据存储和计算压力分不到这些便宜的机器上,从而实现廉价解决方案;不过要注意当前云计算还是刚起步,在设计过程中对人的要求还是比较高,能否找到合适的人是问题。
(2)报表分析:要评价一个报表分析好不好除了看数据准不准这类开发问题,但更重要的就是要像Google和iPhone一样重视用户体验,报表分析除了功能强大、开发简单之外,速度、美观、简单同样必不可少;很多厂商在性能上有自己解决办法,但大部分对开发者设计能力要求较高,要求开发者对产品非常熟悉才可行,最终落实到项目上当然很难出来其标榜的性能;前端报表分析的内存化技术应该引起大家注意,现在Gartner前端报表工具最具魔力象限连续几年纳入了Qlikview这个产品,这个产品代表了基于内存的报表分析技术,用户体验极佳。
(3)数据挖掘:数据挖掘工具毫无疑问SAS EM和SPSS Clementine最为流行,不过工具需要有,但仅有工具远远不够,做好数据挖掘最起码还得具备下面三种能力,否则再好的软硬件配置也无能为力,这点相比较其他方面更为明显。
①重视数据挖掘基础:数据挖掘技术最为重要的是算法,应用算法作为应用最长远的是优化,具备一定数据挖掘算法基础是必备的;不可否认挖掘算法要理解起来还是有一定难度,并且每个方向都有那么几个经典算法,全部要熟悉还是要潜心研究两年以上才可行,但对于有志长期从事数据挖掘工作的人来讲还是有必要的;另外数据挖掘技术研究较热,对应用开发来讲还是要经常学习一些新的算法,多参加一些数据挖掘学术会议会掌握最新研究方向和算法很有必要。
②数据挖掘思想的灵活应用:数据挖掘的核心是算法,但灵魂是思想,要做到灵活应用还是要对挖掘几个方向的思想有深入理解。比如说用户分组,把同一个用户的账号全部找出来,这个技术可以理解为聚类,但一般聚类只有几个类,而这个结果显然是和用户数同一个数量级的组,也可以认为是关联度,但关联度分析往往是找最大关联组合,而我们这里是要找出每一个的关联用户,最后采用的是相似度函数进行定义和计算,思想还是聚类和关联。
③数据挖掘算法的灵活实现:挖掘算法实现不见得非要用挖掘工具,其实算法不复杂,我们知道.net,Java都是很不错的实现工具,另外值得注意的是存储过程借助数据库技术在大数据批量处理方面具有明显的优势,如果算法能够借助存储过程来进行实现,在性能方面将非常有优势;数据库和存储过程对于数据挖掘人员来讲是必备技术,做数据挖掘的人如果不懂得怎么存放和整理数据是很被动的。
6.4 是否懂得合理利用数据挖掘技术?
在电子商务领域充斥着各种数据信息:文本信息、数据信息、视频信息、图片信息等,既有结构化信息又有非结构化信息,信息类型和信息量都非常巨大,业务面和业务逻辑也都比较复杂,涉及很多复杂的问题,如网络欺诈预警问题,市场趋势预测问题等,仅依靠传统技术方法不能得到较好的解决方案,因此这时就需要借助数据挖掘技术,而数据挖掘技术分支较多,每种分支的算法技术也较多。如何才能充分发挥数据挖掘技术的作用去更好地解决电子商务领域的疑难杂症,这就需要我们懂得数据挖掘技术的应用环境及应用特征,如果一个挖掘问题没有找到合适的挖掘方法,那么不但不能解决问题,反而会使得问题的解决方案僵化,会很被动,因此是否懂得合理利用挖掘技术就显得尤为重要。
1)数据挖掘技术的应用环境
挖掘技术种类繁多,每种技术都有它自身的特征,有它的适应环境,应用不当往往会取得适得其反的效果,所以在应用挖掘技术之前首先要分析问题的背景环境,然后配对挖掘技术环境,挖掘技术的环境常常包括挖掘问题类型环境(预测、分类、聚类分群、关联)、数据信息环境、算法环境、评估环境等。在做挖掘课题时,首先需要确定挖掘问题类型,找准问题方向,这就是需要确定挖掘技术类型,比如对未来未知类型的信息进行估计时往往使用预测型挖掘,对现有群体特征进行总结时往往是聚类挖掘,对产品之间的关联特征进行分析时往往属于关联型挖掘等,然后确定数据信息环境,这里主要是了解数据结构特征,数据挖掘技术根据算法逻辑也会有一些环境要求,比如硬件要求、数据量要求、数据格式要求等,这就需要根据现有的数据信息结合算法要求去选择算法,因为算法繁多,往往需要选择多个算法,这时就需要熟悉算法评估规则,不同的算法也有不同的评估要求及评估规范,这些也都是在项目可行性分析前需要考虑的。总体而言,在应用数据挖掘技术时需要全面考虑挖掘技术的各种应用环境。
2)数据挖掘技术的应用特征
数据挖掘技术在应用过程中有它自身的特征,要做好挖掘项目,就需要了解所选择挖掘技术的应用特征,这样才能达到好的应用效果,比如在做聚类分析时往往需要注意数据结构特征和数据的异常处理,有些聚类算法偏好数值型信息,且对异常数值特别敏感;有些算法偏重概率模型,对数据结构没有什么特殊要求,有些时候还需要确定样本的权重因子来进行差异处理。而在做预测问题时,比如时间序列分析就需要注重序列的平稳性、周期性、季节性影响因素及噪音的分布假设等,对异常信息处也比较敏感,分类问题往往对数据格式有特殊要求,比如因变量往往是字符型,有些算法需要自变量之间相关性较弱比如Logistic模型,有些算法需要自变量是数值型,有些学习型模型还要预防过度学习问题等。关联问题往往对数据格式有较强的要求,事前需要一些参数设置,比如提升度、置信度等,对关联结果也需要设置一定过滤机制等。总体而言,各种算法有它自身的优点,但在应用过程中也有它独特的要求,如果不注重这些潜在的要求,即使选对了挖掘方法,挖掘结果的应用效果往往也会大打折扣,达不到预期的效果。因此在应用挖掘技术时,需要考察该算法的应用特征,在应用过程中需要注重这些特征细节,才能更好地发挥挖掘技术的作用。
3)数据挖掘技术的评估要求
挖掘技术种类较多,往往一种技术难以满足要求,所以在应用的过程中往往也会选择多种技术以便后续的比较分析工作的进行,因此这就涉及技术抉择问题,如何从所选的技术中选择出最佳的技术,这就需要熟悉挖掘技术的评估要求及评估规范。不同类型的挖掘技术评估标准往往差异较大,比如聚类技术,一般而言以群体之间差异越大、群体内部差异越小为宜;分类技术,常常考察分类结果的准确率、覆盖率及提升度等指标;关联技术常常分析事件之间关联的支持度与置信度水平等。有了这些评估标准和规范后就可以应用其对模型效果进行综合评估,评估效果最好的为首选,次之的可以作为备选,有时根据评估结果也可以对多种挖掘技术进行综合处理,即把挖掘方法进行组合形成新的挖掘模式,这样可以综合多种挖掘方法的特征效果,来满足应用需求。
综上所述,要应用好挖掘技术,就需要了解挖掘技术,熟悉数据挖掘技术特征。目前市场上有很多挖掘软件(SAS/SPSS/CLEMENTINE/R等),集成了主流的挖掘技术,包括预测技术、分类技术、聚类技术、关联技术等。基本常用的挖掘软件都能找到,而且形成了很多标准化操作流程,这些软件操作界面友好,操作形式简单,使得挖掘技术应用简单易行,但使用时不能生搬硬套,挖掘技术有它自身的特征,是挖掘工具难以具备的,要使用好挖掘技术就需要去了解这些技术的特征,在应用的过程中也必须满足挖掘技术的应用要求,这样才能获得良好的挖掘效果,切实解决碰到的挖掘问题。
6.5 数据质量怎么解决?
商业智能的实施是建立在企业多年积累下来的丰富数据基础之上,数据质量问题是制约商业智能项目成功的因素之一,数据质量不高最终会对商业智能项目的效果产生影响,甚至可能导致项目失败。数据质量的定义有多种,但是目前并没有一个大家都公认的定义。我们可以认为符合我们分析要求不会影响结果的数据就是有质量的数据,数据符合一致性,完整性和正确性要求。(www.xing528.com)
造成数据质量不高的原因有多种,一部分是业务系统自身设计的原因,比如一些数据业务逻辑存在问题,数据缺失等;有的是数据录入过程中的错误造成的,电子商务行业很多数据都是需要用户自己输入的,数据录入的时候由于录入人员的主观或客观原因可能会录入一些错误数据或者不合规范的数据;还有一部分是在商业智能实施数据使用过程中造成的数据质量问题,例如来自多个业务系统的数据一致性问题、ETL程序设计存在漏洞、数据更新策略存在问题、数据仓库开发的bug等。
我们可以从图6.2所示的数据循环过程中看出数据从数据源到Data mining的过程是一个循环的过程,解决数据质量问题我们应该从这几个数据层面上层层管理,在每一个层面需要解决的数据质量问题是不同的。如果前面一层出现数据质量问题就会对后面的数据质量产生影响,我们应该针对每层可能出现的情况进行处理,拿出有针对性的解决办法。
图6.2 数据循环过程
(1)数据源:电子商务企业数据多种多样,有网站数据、后台系统数据等各种数据源,不管数据源是什么方式,都需要提供满足BI基本要求的数据接口。各个数据源的数据要有标准的定义,大数据表需要提供可用于增量抽取数据的字段,可以识别新老数据。
(2)ODS:这一层一般和数据源表对表直接映射及对数据进行一些预处理工作,在ODS主要处理的数据质量问题是要保证数据记录与数据源的一致性,以及清洗一些对分析会产生影响的“脏数据”。ODS层我们有一个mapping层,这一层的任务是要保证数据与数据源一一映射,这部分数据要处理好数据一致性的问题,不能在抽取的时候丢失掉记录也不能生产重复的记录。mapping层之后我们会有一个数据清洗层,在这里我们处理掉一些“脏数据”,把一些记录进行清洗以符合我们下一步处理的要求。
(3)数据仓库:数据仓库是分析型需求的公共数据源,存放着用于分析和数据挖掘的各种明细的和汇总的数据,数据仓库的数据质量尤为重要。在数据仓库层,维度数据的唯一性是很重要的,必须保证每条维度记录是唯一的,相同的代理关键字只能对应相同的维度,维表里不能出现两条相同的记录。事实表设计的时候要保证独立业务表结构的独立性,事实表尽量单一主题,尽量不要有跨主题业务数据间联合表出现,避免数据仓库层面陷入设计混乱,造成数据不一致。
(4)DM:数据集市用于存放各种单主题汇总数据或者多主题联合汇总数据,在数据集市层主要可能出现的数据质量问题是指标定义不清晰、指标二义性问题。解决这一问题的方法是建立专门的指标集,明确每个指标的定义,保证每个指标名称与定义的一致性、指标名称的唯一性和指标统计计算方法的统一性。
(5)Data mining:数据挖掘在数据质量管理中发挥重要的作用,我们通过数据挖掘的帮助诊断数据质量问题,追踪数据质量问题的源头,通过灵敏度分析数据质量问题的影响因素,通过分析提出改进数据质量的方案。数据挖掘分析帮助改进数据源的数据质量,从源头上解决数据质量问题。
BI系统必须要有专用的模块对数据质量进行监控,对数据进行全过程的监控,保证数据正确性、数据一致性、数据规范性、数据重复性等。在BI项目实施中加入一些关键指标的监控是保证数据质量一个重要方法,通过对关键指标的监控可以很容易地检查数据质量是否存在问题。
总之,数据质量在商业智能项目中举足轻重,保证数据质量是商业智能项目成功的关键点之一。每个BI从业人员应该重视数据质量问题,并且应该培养整个企业重视数据质量的意识。通过技术手段和相关的标准提升数据质量,将数据质量问题对项目成功造成的负面影响控制到最低。
6.6 B2B行业的数据增值服务?
BI往往都是间接的为企业创造价值,而数据增值服务是BI直接为企业创造价值的主要途径之一,数据增值服务做得好与坏直接决定了BI为企业创造价值的多与少。数据增值服务不仅是电子商务行业的需求,同时也是社会信息化发展到一定程度的必然需求。
(1)行业需求:B2B电子商务行业与传统行业不同,节约成本不能从根本上解决企业的收益问题,企业发展的关键在于产品的创新,在电子商务行业一个有价值的新产品的开发成本与产品所带来的巨大收益相比几乎可以忽略,这就决定了电子商务企业BI的成败关键就看数据增值服务做得好与不好。
(2)客观市场发展趋势需求:目前电子商务行业企业收入来源已经开始由传统的单一收取会员会费向多元化收费渠道转变,增值服务渠道带来的收入比重在逐年增加,而绝大部分增值服务都源于BI数据分析的支持,因此BI数据增值服务做得好与坏决定了公司整体增值服务的好坏,备受电子商务企业的关注。
(3)客户需求:电子商务行业所面对的客户大部分是企业,而随着全社会信息化进程的推进,企业的信息化程度越来越高,企业的运作已经不再单纯的以管理层人为的主观意识去管理,而是更多地依赖于信息辅助,B2B行业的客户对信息增值服务渴求度越来越高,因此数据增值服务就成了电子商务行业BI今后的努力的重要方向之一。
做好数据增值服务需要做好以下几个方面:
(1)正确的价值定位:数据增值服务也是服务的一种,满足客户需求才是最重要的,只有我们的服务能够真正的为客户带来价值,我们的服务才能得到用户的认可,数据增值服务自身的价值才能都得到体现。
(2)敏锐的直觉:电子商务是一个发展非常迅速的行业,经常会有一些前所未有的用户需求产生,在电子商务竞争如此激烈的今天,谁能第一时间把握住机会,谁就能够占得先机。
(3)快速实施:发现机会难,把握机会更难,一个有价值的数据增值服务如何快速的加以实现,优秀的实施策略、优秀的实施团队等方面缺一不可。
(4)循序渐进的推进模式:任何的数据增值服务不可能一上来就非常完美,尤其是受到基础数据的限制较多,因此这是一个不断优化与完善的过程,如果从开始就要求产品非常完美,那么这个产品将永远不可能与用户见面。所以产品的持续推进非常重要,只有不断地持续推进,产品才能不断完善。
(5)与时俱进:电子商务是一个变化非常快的行业,当前的服务能够满足用户的需求不代表以后一直能够满足用户的需求,随着市场变化与竞争对手的变化,我们的服务也要随之而变化,这样才能始终保持服务的价值所在,否则将会被淘汰。
6.7 怎样获得持续的投入和支持?
企业的投入除了看公司有没有充足的预算,另外就是看我们BI本身能否有产出,前者只能说争取,后者作为BI人员来讲则可以主导。为此,下面我们从BI价值点,分步实施、稳步出成果,什么地方可以节省等这样三个层面来谈BI在钱上面的事情。
1)BI价值点
要出成果先要知道BI价值点在哪里?我们从BI特点和业务这两个方向来进行理解。
(1)从BI特点来看:首先,BI提升分析效率,在报表分析这方面可以把日常OLAP分析和报表进行系统化定制,报表和OLAP分析不再困难,原来分析人员80%的做报表时间可以降到零;其次,BI提升分析能力,简单手工报表及EXCEL分析除了数据较少,汇总粒度过高,同时分析维度太少,其直接结果就是只能做到局部、片面、宏观的分析,并且这种分析难于升级,从而造成分析能力低下,而系统化的BI系统则可以不断迭代,不断丰富完善分析功能,分析数据全面,既可以看宏观有高度的数据,也可以深入看明细,操作起来灵活而又方便,再加上分析人员可以利用由原来20%的时间提高到100%的时间来进行分析,其分析效果、分析能力必将得到提升;第三,BI里面的利器——数据挖掘的潜在价值更是不可估量,B2B电子商务行业是典型的大用户量、高访问量、多产品线的行业,潜在机会和危机处处都是,了解用户喜好进行针对性的服务和支持是行业深入发展的必然需求,快速锁定欺诈行为和用户等潜在风险性预警也关系到企业命脉,这些都需要数据挖掘技术来实现。从上面可知,只要是能提升企业效率、效益,帮助企业智能化分析和决策的需求都是BI需要去做的,并且价值明显。
(2)按照现在流行的企业管理的平衡计分卡的要求,BI在业务应用上也划分为内部运营、客户关系、学习与成长和财务状况等这四部分,这种划分很全面。但是,事实上当前没有几个公司能做到这种领先的程度,相比而言,较现实的做法还是BI先侧重于企业核心竞争力的塑造,比如说零售行业注重的是库存管理、供应链能力,B2B电子商务行业重视的是产品创新和用户规模,品牌商重视的是产品和推广能力等,不同行业的核心竞争力是不一样的,哪怕同一行业中的不同企业的定位也是会有区别,特别是在当前细分市场的年代。所以,BI咨询人员务必理解企业核心竞争力,并且设计出相应的需求。
2)分步实施、稳步出成果
有价值不一定有效果,最终我们还是要拿出成绩来,这也是我们提倡的整体规划、分步实施的切实定位,目标就是稳步出成果。一般来讲每半年有成果产出比较可行,涉及的方方面面风险的前文中已经详细介绍过,在此另外强调几点:
(1)软件要选好:BI软件不要选太复杂的,一定要能快速开发、部署的。
(2)需求不要一味求全:只要对用户有较大的价值,只有几个零散的需求点也可以先做;不同于其他类型的IT项目,BI项目先培养起使用客户是需求能够完善的前提条件。
(3)长期重视核心业务,短期内兼顾其他需求:从长远来看,BI的实施也需要注重企业核心业务、企业核心竞争力的塑造方面,但短期来说,很多一般的需求也得兼顾,这样有利于出阶段性的成果,并且能够全方面了解公司业务,这种积累对核心业务的BI应用非常有帮助,比如说B2B行业对内的客服及销售人员的分析需求,就可以转换提升为客户需求,可以直接开发到网站上支持用户自己来分析。
3)什么地方可以节省
清晰了BI价值点,并且逐步有成果之后应该有利于获得资源,但不得不说BI开发人员要注重节省,并且循序渐进地进行项目的投入,盲目投入不可取,该投不投、缩手缩脚有时候也是致命的,下面我们从三个方面来谈投入与节省。
(1)人力:IT开发人力成本是持续成本,也是主要成本;要做好一个企业级的BI系统必须要具备架构师和咨询专家角色的人才来掌控方向,这个非常关键,这个钱不能省;开发人员可以大部分是新人,BI上手快,一般实施难度不大,这样可以节省不少人力成本,新人有高手带一般有半年时间都可以具备一定独立开发能力;因为BI的入门较为容易,所以招聘方式可以采用资深加有潜质的新人,资深可以引领方向,新人能够快速入门,快速成长,成为性价比很高的中坚开发力量。
(2)软硬件投入:软硬件投入必不可少,但像很多企业把BI产品都买个遍是不可取的,很多企业完全用免费的也是有问题的,软硬件的采购还是要立足企业的真实需求及各个BI产品的特征来进行选择;软件方面包括数据仓库及ETL工具、前端OLAP工具、数据挖掘工具,这三者必不可少。总体来讲,ETL可以考虑数据库存储过程和一些免费工具(比如Kettle),其他方面的免费工具里具体的应用要求还有较大的差距,建议购买付费软件。BI产品商家虽然都标榜自己的产品怎么好,别家怎么差,事实上架构相同的产品最终实施效果都差不多,相比较核心技术及架构不一样的产品间实施效果差距还是很明显的,并且贵的还不一定是好的。在拿不准的情况下,建议参考Gartner的评价,笔者与各种产品接触下来的经验与Gartner的评价较为接近。
6.8 小结
笔者根据在电子商务实施BI的实践经验,总结了下面几个在电子商务行业成功实施BI的关键点。
1)强大的BI技术架构
一个电子商务公司的企业级BI技术架构最起码要包括标准数据源接口、ODS、数据仓库、数据集市、业务系统接口。这五层在BI技术架构中都有明确的价值定位,只要确实理解了每个层的价值定位,即使不同的开发团队在开发过程中方法会有区别,但最终走向还是殊途同归。
2)大数据的存储设计能力
大数据是电子商务企业不得不面对的问题,大数据带来的最大挑战就是ETL性能差、查询慢,解决办法还是分布式部署及数据模型合理设计。分布式部署及云计算是解决大数据的有效方法,分布式或者云计算可以让数据的I/O及运算压力分摊到不同机器上面,从而实现性能线性提升。在技术之外,合理的模型设计也是应对大数据处理的关键。ODS、数据仓库、数据集市表结构设计思想完全不一样,因为大家的价值定位也是不一样的。笔者将BI数据模型设计分为九层,建议层层推进的设计数据模型,或者根据数据量和应用的复杂程度有选择地对某些层次进行设计。
3)合适的软硬件平台
如何选择软硬件,有效的做法还是从最终的效果要求来剖析到底需要什么软硬件配置,再结合当前的产品发展趋势来进行选择。
4)做好需求
BI的需求开发其实就是培养需求、培养用户的过程,笔者对培养BI需求和用户提出几点建议:普及BI知识、用户决定需求、不要等完善的需求、BI在于帮助客户、统一业务规则、选择合适的项目经理。
5)合理利用数据挖掘技术
首先,在应用数据挖掘技术时需要全面考虑挖掘技术的各种应用环境;其次,了解所选择挖掘技术的应用特征;第三,熟悉挖掘技术的评估要求和评估规范,应用其对模型效果进行综合评估;最后,市场上有很多挖掘软件以及集成主流的挖掘技术,使得挖掘技术应用简单易行,但是软件只是帮助我们的工具,挖掘人员必须清楚明白挖掘技术的原理和特征,避免生搬硬套,才能达到良好的挖掘效果。
6)保证数据质量
笔者认为符合分析要求且不会影响结果的数据就是有质量的数据,数据符合一致性、完整性和正确性要求。解决数据质量问题我们应该从数据源到数据集市或数据挖掘中间的几个数据层面上层层管理,且每一个层面需要解决的数据质量问题是不同的。BI系统必须要有专用的模块对数据质量进行监控,并且在BI项目实施中加入一些关键指标的监控。
7)BI提供数据增值服务
数据增值服务是BI直接为企业创造价值的主要途径之一。BI能够帮助企业进行产品创新,扩展企业的收费渠道;BI数据分析直接支持网站客户的需求已经成为行业中的现实,同时也是电子商务行业BI今后努力的重要方向之一。
8)持续的投入与支持
获得资源有两种方式,一是等待公司分配,二是主动争取。BI的价值点是BI争取更多投入与支持的筹码,让价值转变成可视化的成绩与效果才能使我们手中的筹码得到别人的认可。笔者提倡分步实施、稳步出成果的项目开发方式,这样有利于循序渐进的培养客户和完善整体需求架构,客户的认可和需求是BI争取投入与支持的保障。另外,如果BI在人力与软硬件配置上面有良好的规划和认识,可以在保证项目效果的同时节约不必要的支出。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。