粗糙集理论知识发现的原始资料是专业领域的历史记录数据,这些数据往往是通过不同方法获得的,且不可避免地存在着遗漏甚至错误,有些原始数据的类型也不适合于知识获取。因此要经过数据预处理才能做进一步的知识获取。
1.决策表补齐
很多情形下,待处理的原始数据表并不是完备的,表中的某些属性值是被遗漏的,而且其原始值也无从知道。目前主要通过以下几种途径对原始数据表的遗漏数据进行补齐。
1)对遗漏的属性值不做任何处理,只是将存在遗漏属性值的数据记录删除。在原始数据表容量巨大并且含有遗漏属性值的记录远远小于总记录数时,该方法对原始数据表信息的完整性影响较小。
2)将空缺的属性值作为一种特殊的属性值来对待,它不同于其他任何属性值,这样就可以构成一个完备的原始数据表。(www.xing528.com)
3)采用统计学原理,根据原始数据表其余实例在该属性值上的分布概率,对遗漏属性值进行估计,这样不会影响原始数据表包含的信息量,比较著名的算法有MeanCompleter算法和Com-binatorial Completer算法。
4)根据粗糙集理论的不可分辨关系对不完备的数据进行补齐处理,如Roustida算法。
2.决策表离散化
粗糙集理论知识发现要求决策表中的值用离散数据表达,如整数、字符串等。如果某些条件属性或决策属性的值为连续值,如实数等,则必须进行离散化处理。对于离散数据,有时也需通过离散值的合并得到更高抽象层次的离散值。设决策表的条件属性值有n个,离散化本质上可归结为利用选取断点来对条件属性构成的空间进行划分的问题。把n维空间划分为有限个区域,使得每个区域中的对象的决策值相同。目前离散化方法大致分为两类,其一是根据所研究问题的具体背景进行离散化的方法,该方法较少考虑或不考虑粗糙集理论的特殊性,在一定条件下效果较好,但适用性不强;其二是根据粗糙集理论对决策表的特殊要求,采取结合方法来解决离散化问题,其中又可分为非参照性离散化算法、参照性离散化算法,逐步删除断点、逐步增加断点离散化算法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。