首页 理论教育 基于大数据挖掘的冗余数据处理

基于大数据挖掘的冗余数据处理

时间:2023-07-31 理论教育 版权反馈
【摘要】:数据冗余是指同一个数据在系统中多次重复出现。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。有的数据冗余用于数据间建立联系、数据安全或为了数据使用的便利,是必需的数据冗余,而其余的数据冗余为非必需的数据冗余,应尽量予以消除。元组的重复所引起的数据冗余的消除由记录级的操作完成。

基于大数据挖掘的冗余数据处理

数据冗余是指同一个数据在系统中多次重复出现。在文件系统中,由于文件之间没有联系,有时一个数据在多个文件中出现;而数据库系统则克服了文件系统的这种缺陷,但仍然存在数据冗余问题。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。

1.数据冗余的成因

关系数据库中的数据冗余主要是指关系数据库中同一信息数据的重复存储,但关系数据库中为实现一些功能,有些数据冗余是必需的。关系数据库由表及附属文件组成,其表由特征定义的结构和元组(记录)组成,其特征值域有多种类型,故关系数据库的数据冗余形成的原因有表的重复、特征的重复、元组的重复、特征值的重复4类。有的数据冗余用于数据间建立联系、数据安全或为了数据使用的便利,是必需的数据冗余,而其余的数据冗余为非必需的数据冗余,应尽量予以消除。按特征值域集合基的特点将其分为有限类和无限类。无限类特征值偶尔重复,不是数据冗余,有限类特征值的重复由一对多或多对多的关系所致。数据冗余浪费了宝贵的资源,应尽量减少。

(1)表的重复。为了数据安全的需要制作备份表,当主表被破坏时可用此恢复数据。分布式数据库为减少数据通讯开销也常重复放表,这种数据冗余在这里是必需数据冗余,不能删除。若是因其他原因产生的非必要的重复表则应予以删除。

(2)特征重复。有不同表的特征重复和同一表内特征重复2种情况:

①不同表中特征重复常用来建立表之间联系,这只需要一个公共特征,这是必需数据冗余,不能删除;各表间的多于一个的特征应当删除。如有以下3个表:

T1(A,B,C);T2(A,B,D);T3(A,C,D,E)。

其中特征A为三表所共有;特征B为T1,T2两张表所共有,特征C为T1,T3两张表所共有;特征D为T2,T3两张表所共有。如取A为公共特征:则T1,T2两张表中只能保留一个B特征;T1,T3两张表中只能保留一个C特征;T2,T3两张表中只能保留一个D特征。

②同一表内有相同特征内容的多个特征,若非数据安全检查的需要,应删除之。

(3)元组的重复。表内不同记录内容有时会完全相同,若非必要,应予以删除。

(4)特征值的重复。按特征值域集合基的特点可以将其分为有限类和无限类。

①无限类特征值的重复。无限类特征值是指其特征值域集合的基为无限大或者数据库记录数为同一数量级的特征值,如实数、整数、日期、各种编号。

无限类特征值偶尔也可能重复,但这只是巧合,而并非数据冗余。

②有限类特征值的重复。有限类特征值是指其特征值域集合的基小于数据库记录数至少一个数量级的特征值,如产品名、部门名、职称名、课程名。

有限类特征值的重复实际上是由一对多或多对多的关系引起的,有时可作为必需冗余数据不予以处理,这时不需建立程序就有较好的查看效果和工作效率。但当重复量很大时,也应当设法对所引起的数据冗余进行压缩,这通常要建立新表和相应的程序。

不同成因的数据冗余用不同层次上的操作来消除,具体操作如下:

消除表的重复所引起的数据冗余为磁盘文件级的操作;

特征的重复所引起的数据冗余的消除为对数据库结构修改的操作;(www.xing528.com)

元组的重复所引起的数据冗余的消除由记录级的操作完成。

2.消除冗余数据的方法

对于重复类冗余数据,一般采用过滤方法,主要包括重复过滤和条件过滤。

(1)重复过滤。重复过滤是指在从数据集中的重复数据项中选择一项记录作为代表保留在原有数据集中,步骤为:第一,查找出重复记录,判断重复记录的方法主要依据数据的具体结果本身来确定。如果是关系数据库中的表,则使用特征值的相似性进行判断;如果是图论,则依据记录之间的距离远近来判断。第二,对重复数据进行过滤可分为以下两种方法:

①直接过滤。对重复数据进行直接过滤操作,选择重复数据项其中的一项作为代表保留在目标数据项中,然后过滤掉其他冗余数据项。

②间接过滤。对重复数据项进行一定校验、调整、合并操作之后,形成一条新记录。

综上所述,间接过滤比直接过滤更为复杂,需要领域知识和领域专家的鼎力支持。

(2)条件过滤。条件过滤是根据某种条件进行过滤,如过滤年龄小于30岁的服刑人员。从某种意义上来说,重复过滤是条件过滤的某种特殊形式。通常,条件过滤需要对数据中一个或多个特征设置过滤条件,符合过滤条件的数据将放入目标数据集中,不符合过滤条件的数据将被过滤掉。

元组的重复所引起的数据冗余的消除由记录级的操作完成。

2.消除冗余数据的方法

对于重复类冗余数据,一般采用过滤方法,主要包括重复过滤和条件过滤。

(1)重复过滤。重复过滤是指在从数据集中的重复数据项中选择一项记录作为代表保留在原有数据集中,步骤为:第一,查找出重复记录,判断重复记录的方法主要依据数据的具体结果本身来确定。如果是关系数据库中的表,则使用特征值的相似性进行判断;如果是图论,则依据记录之间的距离远近来判断。第二,对重复数据进行过滤可分为以下两种方法:

①直接过滤。对重复数据进行直接过滤操作,选择重复数据项其中的一项作为代表保留在目标数据项中,然后过滤掉其他冗余数据项。

②间接过滤。对重复数据项进行一定校验、调整、合并操作之后,形成一条新记录。

综上所述,间接过滤比直接过滤更为复杂,需要领域知识和领域专家的鼎力支持。

(2)条件过滤。条件过滤是根据某种条件进行过滤,如过滤年龄小于30岁的服刑人员。从某种意义上来说,重复过滤是条件过滤的某种特殊形式。通常,条件过滤需要对数据中一个或多个特征设置过滤条件,符合过滤条件的数据将放入目标数据集中,不符合过滤条件的数据将被过滤掉。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈