首页 理论教育 简化大数据质量管理的复杂性

简化大数据质量管理的复杂性

时间:2023-06-23 理论教育 版权反馈
【摘要】:但在大数据环境下,针对来源多样、结构各异的大数据,其质量管理要比传统数据质量管理具有较高的复杂性,主要表现为以下几个方面:数据源多、数据种类多。大数据新的理念和特征拓展了数据的生命周期中的“再生”环节。而在大数据分析和应用中,历史数据与实时数据能够有效地整合和应用,意味着在大数据生态链中,大数据质量管理将关注不同阶段的跨生命周期管理能力。

简化大数据质量管理的复杂性

传统数据主要来源于组织内部,在业务处理流程中产生,数据采集流程在组织内能够得到有效控制,数据质量工具能整合到业务处理流程中,实现数据质量测量和验证。但在大数据环境下,针对来源多样、结构各异的大数据,其质量管理要比传统数据质量管理具有较高的复杂性,主要表现为以下几个方面:

(1)数据源多、数据种类多。数据来源的复杂和多样性,使得数据整合的难度大大增加。各个数据源在维度上需要保持一致,不然整合就无从谈起,并且数据种类多,使得来源于不同组织的数据整合难度剧增。

(2)不受控制的重复使用。在大数据应用过程中,各种结构化或非结构化数据集被多个使用者共享和使用。不同的业务场景和不受控制的约束,意味着每种应用都有各自的数据使用方式,带来的直接后果是相同数据集在不同业务场景中的诠释不同,为数据的有效性和一致性带来了隐患。(www.xing528.com)

(3)质量控制的权衡。对于来源于组织外部的大数据,很难在数据产生过程中,采用控制手段来保障质量,当内外部的数据不一致时,数据使用者必须在做出权衡:修正数据使其与原始数据不一致,或牺牲数据质量来保持与原始数据一致性。

(4)数据的“再生”。大数据新的理念和特征拓展了数据的生命周期中的“再生”环节。传统的数据管理过程中,历史数据往往在其生命周期的后期转为冷存储或损毁。而在大数据分析和应用中,历史数据与实时数据能够有效地整合和应用,意味着在大数据生态链中,大数据质量管理将关注不同阶段的跨生命周期管理能力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈