【摘要】:数据抽取有下面几种情况:1)如果业务操作型数据库和数据仓库之间的数据库管理系统完全相同,只需要建立相应的连接关系就可以使用ETL工具直接访问,或者调用相应的SQL语句或者存储过程。3)如果需要抽取的数据量非常庞大,此时必须考虑增量抽取。通常用标记位或者时间戳的形式,每次抽取前首先判断是否是抽取标记位或者是当前最近的时间,然后再将数据源的数据抽取出来。
数据抽取就是从源系统中获取业务数据的过程。数据的抽取需要充分满足商业智能系统的决策分析需要,为了保证不影响系统的性能,数据抽取时需要考虑很多因素,包括:抽取方式、抽取时间和抽取周期等内容。例如,抽取方式包括增量抽取、全量抽取。抽取时间应该尽量在系统使用的低峰时段,例如夜间。抽取的周期是根据业务的需求制定的,例如按小时抽取,或者按天、月、季度、年等。在数据抽取之前,需要确定业务系统的数据情况,了解数据量的大小,以及业务系统中每张表的数据结构,字段含义,表之间的关系等信息,当搜集完这些信息后,才能进行数据抽取的设计开发等工作。数据抽取有下面几种情况:
1)如果业务操作型数据库和数据仓库之间的数据库管理系统完全相同,只需要建立相应的连接关系就可以使用ETL工具直接访问,或者调用相应的SQL语句或者存储过程。
2)如果数据仓库系统和业务操作型数据库的数据库管理系统不相同,比较简单的方式是使用ETL工具导出成文本文件或者Excel文件,然后再进行统一的数据抽取。(www.xing528.com)
3)如果需要抽取的数据量非常庞大,此时必须考虑增量抽取。通常用标记位或者时间戳的形式,每次抽取前首先判断是否是抽取标记位或者是当前最近的时间,然后再将数据源的数据抽取出来。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。