首页 理论教育 动态数据高效属性约简算法研究成果

动态数据高效属性约简算法研究成果

时间:2023-11-01 理论教育 版权反馈
【摘要】:5.1.4.1实验方案为了验证所提出的动态属性约简算法能够有效处理数据集更新后属性约简的问题,我们从UCI 机器学习公用数据集上下载了6 组数据集进行实验.数据集的具体描述如表5-2 所示.动态属性约简算法和非动态属性约简算法的代码是在32-bits (JDK 1.6.0_20)和Eclipse 3.7 环境下编写的.仿真实验的计算机软件和硬件环境配置为CPU:Inter Core2 Quad

动态数据高效属性约简算法研究成果

5.1.4.1 实验方案

为了验证所提出的动态属性约简算法能够有效处理数据集更新后属性约简的问题,我们从UCI 机器学习公用数据集上下载了6 组数据集进行实验.数据集的具体描述如表5-2 所示.动态属性约简算法和非动态属性约简算法的代码是在32-bits (JDK 1.6.0_20)和Eclipse 3.7 环境下编写的.仿真实验的计算机软件和硬件环境配置为CPU:Inter Core2 Quad Q8200,2.66 GHz,内存:4.0 GB;操作系统:32-bit Windows 7.在实验过程中,我们随机选取多个对象并改变其属性值,并对所提出的动态属性约简算法进行验证.在实验过程中,由于计算机运行时间不稳定,为了让计算时间更具有代表性,我们把多次运行的时间取平均值作为属性约简的计算时间,本章取10 次运行时间的平均值作为实验最终结果值.

表5-2 数据集的具体描述

设计仿真实验方案如下:

(1)针对不同数据集,当决策信息系统中对象的属性值随着时间不断变化和更改时,对动态属性约简算法和非动态属性约简算法的运行结果进行比较,具体实验方案如下:

在实验中,把表5-2 数据集中的对象均匀分成两部分,其中一部分数据集的属性值没有发生变化,而另外一部分数据集中对象的属性值随着时间不断变化和更改,分别用算法IARCV、GIARC 和CAR 来运行每个数据集.

(2)针对同一数据集的不同对象,当决策信息系统中对象的属性值不断变化和更改时,对动态属性约简算法和非动态属性约简算法的运行结果进行比较,具体实验方案如下:

在实验中,把表5-2 数据集中的对象集均匀分成两部分,其中一部分数据集的属性值没有发生变化,另外一部分数据集,按照对象均匀分成5部分并且数据集的属性值依次发生变化,当每一部分数据集的属性值发生变化时,分别用算法IARCV、GIARC 和CAR 来运行每个数据集.

(3)针对不同数据集,当决策信息系统中对象的属性值不断变化和更改时,对动态属性约简算法和非动态属性约简算法的近似分类精度和近似分类质量进行比较,具体实验方案如下:

在实验中,运用粗糙集理论中近似分类精度和近似分类质量两个评价指标分别对单个对象的属性值发生变化、多个对象的属性值发生变化的动态属性约简算法和非动态属性约简算法所获得的属性约简的有效性进行分析,当所找到的属性约简近似分类精度和近似分类质量值相等或相近时,说明所找到的属性约简是有效的.

(4)针对不同数据集,当决策信息系统中对象的属性值不断变化和更改时,对动态属性约简算法和非动态属性约简算法的分类精确度结果进行比较,具体实验方案如下:

在实验中,运用十字交叉方法分别对算法IARCV、GIARC 和CAR 所获得的属性约简的分类精确度进行比较分析,即把表5-2 数据集中的对象分成90%和10%两部分,其中90%的部分数据集在实验过程中作为训练集,剩余10%的部分数据集在实验过程中作为测试集,利用贝叶斯分类方法运行每个数据集.

(5)针对不同数据集,当决策信息系统中对象的属性值不断变化和更改时,对所提出的动态属性约简算法和其他动态属性约简算法的实验结果进行比较,具体实验方案如下:

在实验中,把表5-2 数据集中的对象均匀分成两部分,其中一部分数据集的属性值没有发生变化,而另一部分数据集的属性值发生了变化,当决策信息系统中对象的属性值不断变化和更改时,分别用所提出的多个对象的属性值发生变化的动态属性约简算法与基于信息熵的动态属性约简算法运行每个数据集.

5.1.4.2 性能分析

本节分别介绍以上各实验的结果.

(1)属性值发生变化后动态属性约简算法与非动态属性约简算法结果比较.

当决策信息系统中对象的属性值随着时间不断变化和更改时,分别用单个对象的属性值变化、多个对象的属性值发生变化情况下的动态属性约简算法以及非动态属性约简算法运行每个数据集,实验比较结果如表5-3所示.由于算法IARCV、GIARC 计算的属性约简数目、属性约简数值是一样的,所以在表5-3 中对算法GIARC 仅列出计算时间.结果说明:算法IARCV、GIARC 和CAR 所得到的属性约简数目、属性约简数值是非常相近甚至有些数据集的属性约简数值是相等的,但是算法IARCV 的更新时间小于算法CAR 的更新时间,算法GIARC 的更新时间小于算法IARCV的更新时间.这表明:多个对象的属性值发生变化情况下的动态属性约简算法在实际生活中具有较好的适应性.

表5-3 比较算法CAR、IARCV 和GIARC 的运行结果

(2)不同大小对象集的属性值发生变化后动态属性约简算法与非动态属性约简算法结果比较.

当不同大小对象集中的对象属性值依次随着时间发生更新时,分别用算法IARCV、GIARC 和CAR 去运行每个数据集,实验比较结果如表5-4所示.由于算法IARCV、GIARC 计算的属性约简数目、属性约简数值是一样的,所以在表5-4 中对算法GIARC 仅列出计算时间.不同大小对象集的属性值依次发生变化时,用算法IARCV、GIARC 和CAR 进行实验的结果如图5-1 和图5-2 中的各个子图所示.图中X 轴为属性值发生变化的对象集,Y 轴为属性约简的运行时间,单位为秒(s).图中圆圈线表示非动态属性约简的运行时间,方格线表示单个对象的属性值发生变化情况下的动态属性约简的运行时间,棱形线表示多个对象的属性值发生变化情况下动态属性约简的运行时间.图5-1 和图5-2 表明:随着决策信息系统对象的属性值发生变化即数目的增加,算法IARCV、GIARC 和CAR 的更新时间都有所增加,但是相对于非动态属性约简算法 CAR 和动态属性约简算法IARCV,动态属性约简算法GIARC 更新时间的增加较小.这验证了多个对象的属性值发生变化情况下的动态属性约简算法优于单个对象的属性值发生变化情况下的动态属性约简算法和非动态属性约简算法.

表5-4 比较算法CAR、IARCV 和GIARC 的运行结果(www.xing528.com)

续表

图5-1 属性值变化时算法CAR 与算法IARCV 运行时间比较

图5-2 属性值变化时算法IARCV 与算法GIARC 运行时间比较

(3)属性值发生变化后动态属性约简算法与非动态属性约简算法有效性能结果比较.

当决策信息系统中对象的属性值随着时间不断变化和更改时,运用粗糙集理论中的近似分类精度和近似分类质量两个评价指标分别对动态属性约简算法和非动态属性约简算法所获得的属性约简的有效性进行分析,比较结果如表5-5 所示.结果说明:动态属性约简算法和非动态属性约简算法所获得的属性约简的近似分类精度和近似分类质量数值是非常相近甚至某些数据集的数值是相等的.这验证了多个对象属性值发生变化情况下动态属性约简算法所获得的属性约简是有效的.

表5-5 比较算法CAR、IARCV 和GIARC 的近似分类精度和近似分类质量

(4)属性值发生变化后动态属性约简算法与非动态属性约简算法的分类精确度结果比较.

当决策信息系统中对象的属性值随着时间不断变化和更改时,运用十字交叉方法分别对动态属性约简算法和非动态属性约简算法所获得的属性约简的分类精确度进行分析比较,再用贝叶斯分类方法运行每个数据集,比较结果如表5-6 所示.结果表明:动态属性约简算法和非动态属性约简算法所获得的属性约简的分类精确度非常相近甚至某些数据集的分类精确度是相等的.这说明:所提出的多个对象的属性值发生变化情况下的动态属性约简算法可以有效处理对象的属性值动态变化的数据集.

表5-6 比较算法CAR、IARCV 和GIARC 的分类精确度(%)

(5)多个对象的属性值变化后动态属性约简算法与其他动态属性约简算法结果比较.

当决策信息系统中对象的属性值随着时间不断变化和更改时,分别用基于知识粒度的动态属性约简算法GIARC 与基于信息熵的动态属性约简算法ARED 运行每个数据集,比较结果如表5-7 所示.结果表明:动态属性约简算法GIARC 与动态属性约简算法ARED 所得到的属性约简数目、属性约简数值是非常相近甚至某些数据集的数值是相等的,但是动态属性约简算法GIARC 的更新时间小于动态属性约简算法ARED 的更新时间.这验证了所提出的多个对象的属性值发生变化情况下的动态属性约简算法GIARC 在处理数据集更新后属性约简中具有较强的计算优势.

表5-7 比较知识粒度动态属性约简算法和信息熵动态属性约简算法运行结果

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈