数据源是数据仓库系统所有信息的源头,主要是操作型业务应用系统存放的数据集合。数据源分析是指对业务数据源中的原始数据进行分析,得到数据的范围、格式,以及其更新方式、更新频率、质量等方面的信息。商业智能系统本身就是一个数据分析的系统,对数据源的分析是开启商业智能项目大门的过程,数据仓库系统需要支持多种数据源格式,为了确定抽取方式,需要对数据源进行详细的分析。
在分析的过程中,需要确定业务源数据中哪些数据需要被抽取。为了确定合适的抽取方式,需要在抽取之前对数据源进行分析,分析的范围一般包括数据的格式、数据的范围、更新的方式、数据质量的好坏。在分析的过程中,应该尽可能获取分析的结果,形成数据源分析报告,在仔细研究分析报告后,再选择合适的抽取、加载方式。
在分析时,应该抛弃实际的应用系统,在逻辑上重新确定目标表中需要哪些业务数据,然后再根据业务系统的实现方式,分析业务源数据的存储格式、更新频率、更新方式和数据质量。
可以得出这样的结论:所谓数据源分析,就是对源数据进行分析和总结,得出源数据的范围、格式、更新方式、更新频率和质量好坏的过程。
数据源分析的过程分为范围分析、格式分析、更新方式分析、质量分析4个方面,如图3-13所示。
图3-13 数据源分析过程(www.xing528.com)
1)范围分析是指分析数据的范围。用户需要确定数据仓库系统需要数据源中的哪些原始数据。例如,在某电力行业的销售电量分析主题中,所有的数据均来自某管理信息系统,由此可以确定,这个销售电量分析主题的数据源都来自该管理信息系统,可能是与这个管理系统中的客户相关的数据,或者与电量相关的数据。而与财务数据或用户欠费相关的业务数据不相关。
2)格式分析是指对原始数据在数据库中的物理存储方式进行分析。内容包括在数据库中的存储类型、存储长度、数据精度等指标。
3)更新方式分析是指对原始数据在应用系统中的更新方式、更新频率、更新内容进行分析判断。内容包括原始数据何时更新、更新方式、具体更新哪些内容等。例如,在某销售电量主题分析中,需要考虑用户的抄表数据和电量数据,一般都是每月增量更新的,而用户的档案信息也有可能进行更新,用户的欠费信息也随着用户的缴费行为而随时发生相应的变化。
4)质量分析是指分析业务源数据的质量。主要分析数据完整性、数据准确性、数据一致性等内容。一般步骤包括:设计数据质量定义文档,内容包括数据质量验收的依据,数据质量等级的划分,数据质量检查的流程等内容;再根据数据质量定义文档进行数据质量检查,最终形成质量报告;根据数据质量报告进行深入分析,将分析结果提交给相关人员,协助设计人员完成数据清洗规则的制定。通常,质量分析是数据源分析中最重要、工作量最多的部分。
总结:除以上所述的对数据源进行分析外,还需要对各项指标数据的确切含义,统计口径等信息进行明确的界定,以避免产生二义性。例如,在销售电量主题分析中,需要明确销售电量的确切含义,是否包含线损电量、变损电量等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。