1)ETL是数据仓库项目中最艰难且耗时最长的工作,ETL系统的设计和开发工作对商业智能项目的成败产生至关重要的影响,ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写。
2)ETL本质上就是数据从源到目标的过程(即数据流动的过程),所以一般ETL工具都提供特定语言环境(JavaScript语言脚本和存储过程的调用功能)来实现高级转换功能。
3)元数据的概念在数据仓库中非常重要,ETL中存在大量的数据源定义和映射规则、转换规则,这些都是元数据需要管理和存储的。
4)影响ETL数据质量的关键因素包括以下几种情况。
●可能会有一部分数据因为客观或者人为的原因导致数据格式混乱。
●源系统设计存在不合理性。
●在开发过程中,因为开发人员的错误或者设计人员对业务规则描述的问题,同样会导致
数据质量出现问题。
5)质量的衡量有以下几种方式:定义的数据是否和实际数值相同、指标数据是否符合业务的规则、数据是否和业务源系统中的信息保持一致、数据是否违背自然规律或者不符合常理。
6)选择合适的ETL工具是实际数据仓库项目中必须要考虑的问题,包括使用成本、技术人员对此工具的熟练程度、ETL工具开发商业智能项目的成功案例和工具厂商强有力的技术支持,在实际项目中,我们最常用的工具就是PowerCenter和Datastage,一些公司甚至也用开源的ETL工具,例如Kettle。
7)ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,通常情况下,整个商业智能项目的ETL部分会占整个项目的1/3以上,所以ETL的设计会直接决定商业智能项目的成败。(www.xing528.com)
8)数据清洗的流程包括以下几个方面:定义业务数据源、分析业务数据源、将数据标准化、通过业务规则修正错误数据、合并数据、总结数据错误类型、转换和加载。
9)ETL转换过程可能包括以下几个方面:对空值的处理、对数据格式的规范化、根据业务需求进行字段的拆分或者合并、对缺失数据的替换、根据业务规则对数据进行过滤、根据编码表进行数据唯一性的转换。
10)通常ETL的数据加载策略包括:时间戳的加载方式、全表对比的加载方式、通过读取日志表进行加载的方式、全表删除后再进行加载的方式。
11)ETL的日志功能非常重要,可以记录ETL执行过程中的每一步信息,包括运行的起始时间和结束时间,历史数据的抽取记录,数据抽取的行数和运行到某一步的出错信息,出错时间等内容。
12)采用高效的SQL语句是ETL优化的核心和重点。
13)ETL框架结构主要包括ETL调度、抽取策略、转换策略、加载策略等。
14)统一调度是ETL中较为重要的功能。通常有两种调度方式:
●自动调度方式:可以使用ETL工具,每天定时启动后台程序,自动完成ETL的处理流程和加载过程。
●手工方式:用户可以通过前台应用系统,使用它的监控功能对一些ETL处理程序进行手工调度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。