数据挖掘的数据基本都来自生产、生活、商业中的实际数据,在现实世界中,由于各种原因导致数据总是有许多问题。在实际情况下,我们采集到的数据往往存在缺失、错误或含有噪声、不一致等问题,也就是说数据质量的三个要素:准确性、完整性和一致性都有欠缺。不正确、不完整和不一致特性是现实世界大型数据库和数据仓库的共同特点。导致不正确的数据(即具有不正确的属性值)可能有多种原因:收集数据的设备可能出故障;输入错误数据;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值(例如,为生日选择默认值“1月1日”),这称为被掩盖的缺失数据。错误也可能在数据传输中出现,这些可能是由于技术的限制。不正确的数据也可能是由命名约定或所用的数据代码不一致,或输入字段(如日期)的格式不一致而导致的。
影响数据质量的另外两个因素是可信性和可解释性。可信性(Believability)反映有多少数据是用户信赖的,而可解释性(Interpretability)则反映数据是否容易理解。假设在某一时刻数据库有一些错误,之后都被更正。然而,过去的错误已经对相关部门造成了影响,因此他们不再相信该数据,即数据的可信性下降。此外,数据还使用了许多编码方式,量化分析人员有时并不知道如何解释它们。即便该数据库现在是正确的、完整的、一致的、及时的,但是由于很差的可信性和可解释性,这时数据质量仍然可能被认为很低。(www.xing528.com)
总之,现实世界的数据质量总是很难让人满意,一般是质量较差的,原因也有很多。但我们并不需要过多关注数据质量差的原因,只需关注如何让数据质量变得更好,也就是说如何对数据进行预处理,以提高数据质量,满足数据挖掘的需要才是我们的主要工作。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。