理解项目的目标和从商业的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。商业理解阶段数据流程图见图2-4所示。
图2-4 商业理解阶段数据流程图
1.确定商业目标(Determine Business Objectives)
(1)任务(Task)。本阶段的任务就是确定商业目标,数据分析师的首要目标是从商业的角度来全面理解客户真正想要完成什么?通常客户会有许多竞争目标和必须适当平衡的约束。数据分析师的任务就是在开始时就揭示可能影响项目结果的重要因素。挖掘的真正意图和需求,明确要达到的商业目标,并将其转化为数据挖掘主题。
(2)输出结果(Outputs)。背景(Background):在项目开始时,记录关于商业单位的商业已知信息,也就是掌握商业单位的背景。商业目标(Business objectives):一个单位的商业目标除了主要目标外,通常还包括解决其他相关商业目标。商业成功标准(Business Success Criteria):为了评估一个数据挖掘项目是否成功,通常还需要从商业观点来描述项目成功或者失败的标准。一般是具体的,能够被客观地衡量。
2.形式评估(Assess Situation)
(1)任务(Task)。形势评估的任务涵盖了关于所有资源、约束、假设和在决定数据目标及项目计划中应该给予考虑的其他因素,是在确定商业目标的基础上扩充细节。
(2)输出结果(Outputs)。资源清单(Inventory of Resources):列出项目资源,包括:人员(商业专家、数据专家、技术支持人员、数据挖掘人员)、数据(固定的提取,能够使用现场数据库或者实际运营的数据)、计算资源(硬件平台)和软件(数据挖掘工具和其他相关软件)。要求(Requirements):列出项目的所有要求,包括关于完成的时间表、完成后的质量和易理解性、安全性,以及法律问题。要确保该子阶段被允许使用数据。假定(Assumptions):列出项目所作的假设。这些假设可能是在数据挖掘过程中被检查的数据,但也有可能是项目基于商业假定而不能检查的数据,后者列出来尤其重要。限制(Constraints):列出项目的限制条件。这些限制有可能是关于资源可得性的,也有可能是技术限制,如实际可用来建模的数据的多少等。风险和偶然性(Risks and Contingencies):列出风险,或者可能使项目拖延或失败的事件;列出相应的偶然性计划,如果风险发生应该采取什么行动。专业术语(Terminology):编制关于项目的术语表。这包括两个部分:①相关商业术语表——构成了项目可得到的商业理解部分。建立该表是一个很有用的“知识启发”和教育训练;②数据挖掘术语表——通过与正在讨论的商业问题有关的例子来说明。成本和收益(Costs and Benefits):构造项目的成本收益分析,即如果该项目成功的话,将其成本与潜在的商业利润相比较。该比较应该尽可能地具体,如在一个商业情况中使用货币尺度。
3.确定数据挖掘目标(Determine Data Mining Goals)(www.xing528.com)
(1)任务(Task)。确定数据挖掘目标(Determine Data Mining Goals):商业目标是用商业术语来阐明目的。一个数据挖掘目标则是用技术上的术语来说明项目的目的。例如,商业目标可能是“增加现有客户的销售种类”。一个数据挖掘目标便会是“考虑客户过去三年的购买、人口统计信息(年龄、工资、所在城市等)及物品的价格,预测其将会购买多少小器具”。
(2)输出结果(Outputs)。数据挖掘目标(Data Mining Goals):描述想要得到的项目输出结果,这使得商业目标得以实现。数据挖掘成功标准(Data Mining Success Criteria):用技术性术语定义项目成功标准,如预测准确度或者在给定程度下“提高”购买的倾向。与商业成功标准一样,用主观术语描述数据挖掘成功标准也可能是必要的,这种情况下应该标明做出主观判断的人或者人们。
4.制定项目计划
(1)任务(Task)。制定项目计划(Produce Project Plan):描述得以达到数据挖掘目标并从而实现商业目标的预定计划。该计划应该具体说明在项目的剩余部分中预期要实施的各个步骤,并包括对工具方法的最初选择。
(2)输出结果(Outputs)。项目计划(Project Plan):列出项目中执行的步骤,以及持续时间、所需资源、输入、输出结果和从属。尽可能使得数据挖掘过程中大量的反复十分清楚,如建模和评估词语的重复。
作为项目计划的一部分,分析时间表与风险之间的关联也是极为重要的。把项目中这些分析的结果清楚地表达出来,尤其是如果风险发生,理想上地还能明确表示出采取行动和建议。
注:项目计划包含每一个阶段的详细计划。如,在评估阶段决定使用什么样的评估策略。
从某种意义上而言,项目计划是一个动态的文件。在每个阶段结束时,有必要对进程和所完成的内容做一回顾,并推荐相应的更新项目计划。这些回顾的具体检查要点也是项目计划的部分。
工具方法的初始评估(Initial Assessment of Tools and Techniques):在第一阶段末尾,也需要对工具和方法进行最初的评估。比如说,可以挑选一种支持流程各个不同阶段多种方法的数据挖掘工具。在流程的早期就评估工具方法是很重要的,因为工具与方法的选择很可能影响到整个项目。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。