【摘要】:ETL设计需要遵循业务数据处理的要求,根据问题的多样性和不确定性,在设计过程中需要依照以下原则:图4-11 ETL的设计原则1)在ETL设计之前,需要根据业务的需求确定所要分析的主题和数据结构。根据数据仓库的模型,考虑在ETL设计中是否增加预留字段和属性。3)ETL抽取周期的确定。4)以增量抽取的方式作为ETL设计的重点,减少数据抽取的压力和抽取的时间。7)对ETL的运行管理和监控措施。
ETL设计需要遵循业务数据处理的要求,根据问题的多样性和不确定性,在设计过程中需要依照以下原则(见图4-11):
图4-11 ETL的设计原则
1)在ETL设计之前,需要根据业务的需求确定所要分析的主题和数据结构。根据数据仓库的模型,考虑在ETL设计中是否增加预留字段和属性。
2)确定数据的粒度。可以通过粗粒度减少数据的总量,也可以根据细粒度追溯到最底层的数据,探寻原因。粒度的大小是业务需求和分析的主题所确定的。
3)ETL抽取周期的确定。根据用户的需求,在设计ETL之前就应该确定抽取的时间、抽取的周期。(www.xing528.com)
4)以增量抽取的方式作为ETL设计的重点,减少数据抽取的压力和抽取的时间。
5)通常数据的抽取和清洗可以分成许多步骤,根据不同的条件采用不同的处理逻辑。
6)对异常情况的处理。包括网络的中断,数据流动过程中各种未知的错误,都需要通过相应的措施去解决,以保证数据的正确性。
7)对ETL的运行管理和监控措施。可以使用ETL工具中的管理监控组件对ETL进行设置,方便ETL出现异常时可以进行人工干预,或者通过程序自动调度功能,对每一步的错误异常都调用相应的处理程序自动去解决,以保证数据的质量。
总结:按照以上设计原则,可以增加数据仓库系统的灵活性和扩展性,保证数据的正确性,降低维护成本。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。