首页 理论教育 利用数据挖掘技术生成树型结构的优化方法

利用数据挖掘技术生成树型结构的优化方法

时间:2023-06-01 理论教育 版权反馈
【摘要】:数据挖掘是一种从数据集合中自动抽取有用信息的技术,可以用于生成决策树、聚类分析、分类分析和规则推导等。事件树的分析方法来自于决策树理论,因此可以利用数据挖掘的决策树算法来生成风险分析的事件树。数据挖掘的决策树算法中一个较为经典的算法是ID3算法。基于上述理论可以得出,当将粗糙集理论应用于数据挖掘时,可以设P和Q分别表示信息系统的条件属性和决策属性。

利用数据挖掘技术生成树型结构的优化方法

数据挖掘是一种从数据集合中自动抽取有用信息的技术,可以用于生成决策树、聚类分析、分类分析和规则推导等。事件树的分析方法来自于决策树理论,因此可以利用数据挖掘的决策树算法来生成风险分析的事件树。数据挖掘的决策树算法中一个较为经典的算法是ID3算法。ID3算法运用了信息论将分类对象划分属性最小化的思想,其算法如下所述。

设S是训练集,其中类别标识属性有m个独立的取值,即定义了m个类Ci(i=1,2,…,m),Ri为数据集S中属于Ci类的子集,用ri表示子集Ri元组的数量。S的期望信息量可以用式(5.2)计算。

其中 

设属性A有v个不同的取值{a1,a2,…,av},则通过属性A的取值可将S划分为v个子集,其中Sj表示在S中属性A的取值为aj的子集,j=1,…,v。如果用Sij表示Sj子集中属于Ci类元组的数量,则属性A对于分类Ci的期望信息量为:

其中 

I(s1j,s2j,…,smj)=-∑Pijlog2Pij

将A作为决策分类属性的信息增益为:

ID3算法需要计算每个决策属性的信息增益,具有最大信息增益的属性被选择为给定数据集S的决策属性节点,并通过该属性的每个取值建立由该节点引出的分支。在建立由该节点引出分支的数据子集中继续计算除去已计算的决策属性节点后的各分类属性的信息增益,以此类推,一直计算至最后一个属性进而生成决策树。

理想的决策树分为以下三种[152]

(1)叶节点数最少。

(2)叶子节点深度最小。

(3)叶节点数最少且叶子节点深度最小。

决策树生成的好坏,不仅影响了分类的效率,而且影响分类的准确率。因此,许多学者致力于寻找更优的启发式函数和评价函数。Tu Pei__l[153]等人分别证明了要找到这种最优的决策树是NP难题。

由于ID3算法需要遍历整个属性集来计算每个决策属性的信息增益,当属性集的属性很多时,ID3算法的运算量将会十分巨大,这样对于生成理想的决策树是一种挑战,因此可以考虑在应用该算法之前来对其进行属性约简。粗糙集理论从新的视角对知识进行了定义,把知识看做是关于论域的划分,认为知识是有粒度的,并引入代数学中的等价关系来讨论知识。该理论主要用于知识的约简和知识相依性的分析,因此,可以作为机器学习和复杂数据分析的工具。基于粗糙集理论可以在对风险信息集进行数据挖掘之前先对属性进行约简,去掉对决策属性分类无关的属性,然后再对经过约简后的风险信息集合运用ID3算法得出相应的风险分析决策树,可以减少决策树的计算量。(www.xing528.com)

由于数据库中的属性和粗糙集中的等价关系之间存在着一一对应的关系。所以对于粗糙集的描述可以不区分属性和等价关系。设U是感兴趣的对象组成的有限集合,论域R是定义在U上的一个等价关系,则U/R表示R在U上导出的划分,[x]R表示包含x的R的等价类,其中x∈U。在粗糙集理论中,将序对(U,R)称为一个近似空间。任何子集X属于U,称为一个概念。对每个概念X可定义下、上近似集为:

下近似集表示由U中那些在现有知识R下肯定属于概念X的元素组成的集合,上近似集是可能属于概念X的元素组成的集合。对于U上的两个等价关系P、Q,Q的P-正区域定义为:

POSp(Q)是U中所有通过知识P被肯定地分作U/Q的类的元素组成的集合。

设U是一个论域,P和Q是定义在U上的两个等价关系族。如果式(5.7)成立。则称一个等价关系R∈P是Q-不必要的(或多余的),否则,R在P中是Q-必要的。

式中:IND(Q)=∩P(所有属于p的等价关系的交)也是一个等价关系,并且称为P上的一个不可区分关系。

P中所有Q-必要的等价关系组成的集合,称为P的Q-核,记作CORDQ(P)。

基于上述理论可以得出,当将粗糙集理论应用于数据挖掘时,可以设P和Q分别表示信息系统的条件属性和决策属性。若一个属性R∈P是Q-不必要的,则从P中去掉属性R不会改变原来信息系统的决策,而去掉P中那些属于Q-核中的属性将改变信息系统的决策。因此,当用粗糙集理论对信息数据进行属性区分,去除Q-不必要的属性,则可实现对信息数据条件属性的属性约简。

总结起来,利用计算机技术进行树型风险元传递分析的步骤如下:

(1)对数据库中的数据用粗糙集理论进行属性约简;

(2)用数据挖掘算法对信息集进行决策树分析,从而得出风险分析的事件树;

(3)将各个条件属性看成是对于决策属性影响的各个元素,即风险元。结合各风险元的分布律对决策树中的决策属性的分布率进行传递分析。

对于风险元的分布律,既可以从数据集中通过统计分析得到,也可以参照经验分布律,确定各风险元的分布律后,通过各个风险元的分布情况推求总目标决策属性的概率分布。

以下通过两个实例,对树型风险元传递理论进行说明。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈