IT界正在被云计算、社交计算和移动计算这三个相关联且百年一遇的技术趋势重塑,这些大趋势正在改变数据世界,刺激数据爆炸式增长——更大数量、更广泛的数据种类、更高速度和更多商业价值。数据是企业数据中心的重要资产,获取并维护高质量数据,对高效的IT和业务运营至关重要。
数据量越来越大,有价值的信息获取难度就越大。获取不到有用的信息,就不能继而进行数据挖掘和数据分析。但有许多因素会导致这些“数据资产”的贬值,比如数据的冗余和重复导致信息的不可识别、不可信,信息时效性不强,精确度不够;结构或非结构数据整合有困难:人员变动引发的影响;数据标准不统一,相关规范不完善造成对数据理解的不充分等等。
在之前的BI(Business Intelligence,商业智能)时代,很多企业进行了巨大的BI项目投入,但依然不能逃脱项目失败的惨痛教训,其最根本的原因,就是用于商业智能分析的数据源头不能提供高质量的数据。那么在大数据时代到来之时,如何从海量数据中获取高质量的信息则成为大数据应用成败的关键因素之一。(www.xing528.com)
数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。如果原始数据存在质量问题,将影响数据挖掘算法的效率与数据预测结果的准确性。另外,如果原始数据的形态不符合目标算法的要求,后续处理方法将无法直接在原始数据上进行。狭义的数据质量,即传统的数据质量,指的是数据的精确性,通常用数据采集的误差来衡量。而广义上的数据质量,指数据对特定用户的满意程度,因为同样的数据,在不同时期(数据产生、数据消费等阶段),针对不同用户可能表现出不同数据质量[30]。数据时代,数据质量的优劣直接决定着商业决策和行动的成败,这使得认真分析和研究数据质量评价指标和评价方法显得尤为重要。因此,在对服刑人员数据进行分析与挖掘之前,对原始数据进行质量分析是非常必要的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。