数据挖掘的实际应用与计算机技术和应用数学息息相关,研究的难度比较大,下面仅以实际中最常见的两种挖掘方法为例,让读者有一个初步的了解。
1)关联规则挖掘
一个超级市场的销售系统记录了客户购买货物的详细情况。下面以一个简单的客户购物清单加以分析,见表7.6。
表7.6 客户购物清单
超市经理想知道商品之间的关联,要求列出那些同时购买的、且支持度≥0.4(即在5 行中至少出现两次)的商品名称。知识发现数据库系统通过特定算法(例如著名的Apriori(验证)算法或改进型算法)多次扫描数据库,依次得出如表7.7 和表7.8所示的结果。其中支持度<0.4 的项目,如单项中的{面包}、{雨伞}和双项中的{尿布,牛奶}等已经略去,3 项统计为空,其中只有(啤酒、尿布、牛奶)出现了一次(表7.6 中的3 号记录),支持度小于0.4 则略去。
表7.7 单项统计结果
表7.8 双项统计结果
Apriori算法和DHP 算法得出的知识可解释如下(在DB Miner 软件中,由系统自动解释):从单项统计中,看出80%的客户买了啤酒,80%的客户买了尿布。从双项统计中看出,60%的客户同时买了啤酒和尿布,40%的客户同时买了啤酒和牛奶,40%的客户同时买了尿布和爽身粉。还可观察到买了啤酒的客户中,又买了尿布的占0.6,0.6{啤酒,尿布}/0.8{啤酒}=0.75(称为信赖度)。
于是可得出下列6 条规则,其中S为支持度,C为信赖度。
R1:啤酒~尿布,S=0.6,C=0.6/0.8=0.75
R2:尿布~啤酒,S=0.6,C=0.6/0.8=0.75
R3:牛奶~啤酒,S=0.4,C=0.4/0.4=1
R4:啤酒~牛奶,S=0.4,C=0.4/0.8=0.5
R5:尿布~爽身粉,S=0.4,C=0.4/0.8=0.5
R6:婴儿爽身粉~尿布,S=0.4,C=0.4/0.4=1
KDD规则反映了商品之间的表面关系,但不一定是现实间的因果关系。规则是死的,人是活的,运用的妙处在于自己去实践和体会。例如,R6 有很高的信赖度,是相当合理并且可以解释的;R3 有很高的信赖度,将提示进一步的调查分析,而在本例中,是由数据太少而引起的失真所致。
2)分类规则挖掘举例
(1)面向评估函数的分类方法
各种评估工作实质上是分类,可以用KDD辅助评估,分类在KDD 中又称为“监督式分类”。下面以奖学金评奖为例子说明KDD挖掘分类知识的大致步骤:
·先画出一个训练数据库。例如,上次评估的结果或经评审委员公认的典型代表,应包括正反两面的例子,以作为训练数据集,见表7.9。(www.xing528.com)
表7.9 评奖项目训练数据
·在分析训练数据之后,发现评估结果与性别和年龄无关,删去这些无关字段。此步称为“特征选择”。
·KDD邀请评审委员参与,选择一个总分评估函数(又称为特征函数),Total=f(F1,F2,F3,…,Fn);例如常用且最简单的是线性加权函数Total=∑PiFi,其中Fi为各条件量化值,Pi为加权值,而由加权值决定获奖等级。
·根据训练数据,例如A及类似A的学生应评为一等奖等。解方程式或迭代调整有效字段的加权值,使得在训练集中,各记录的∑PiFi刚好在应评等级的分数段中。
·用另一组或多组独立的测试数据来测试和修改公式Total=W。
·公式Total=∑PiFi就是从数据中“挖掘”出来的,其所分类的知识可以推广使用。
由此可见,KDD取得的规则是先从应用中得出的总结。
(2)面向决策树的分类方法
仍然用奖学金评奖为例。其要点如下:
·根据训练数据计算出各个字符的信息增益,它涉及较多的数学理论及复杂的熵理论公式。以计算“性别”的信息增益说明其来龙去脉:对于训练数据,保留“性别”和删除“性别”之后各计算一次信息增益;比较结果可知,“性别”字符值对提高分类精确度的贡献(信息增益)甚小。
·删除信息增益很小的字符,其余字符按照信息增益从大到小排序,以信息增益最大者为根结点,建立一棵决策树。在本例中为:品德→得奖量化值→成绩→论文数→体育等。
·从训练数据中挖掘出每一个结点的分类门限,例如在“品德”结点,为B则淘汰,为A则进入得奖量化值结点,以此类推。
·在测试数据中测试调整(结点次序和门限值)之后,即可应用于大量的学生评奖辅助决策。
为了便于了解,可以把决策树的结构和评估门限表示成易于了解的规则。
(3)群集分析
群集分析的基本思路为:一个具有K个字符的记录在KDD系统中被视为K维空间的一个点。在客户的参与下,对各个维度施以加权,而构造出一个K维空间的距离公式,例如,最简单欧氏空间距离。被分类的对象如同K 维空间中的天体,然后根据距离原则被划分为星系或星团。同一个对象集会,不同的距离表达了不同的观察角度,而有了不同的群集结果。
天文学家为了了解恒星的亮度和温度之间的关系,画了如图7.19所示的散布图。纵轴为衡量该恒星相对于太阳亮度的倍数,横轴则衡量恒星表面的绝对温度,即﹣273 ℃。
可以看到,众多的恒星落在3 个群集中,这3 个群集代表恒星在其生命周期中的3 个不同阶段。在每一个群集中,由于各个群集所产生的热度和光的基本程序不同,因此群集之间的亮度和温度的关系不同。80%的恒星落在主要序列中,它们产生能量的方式是以核融合将氢转化为氦。但经过100 亿年左右,恒星的氦元素就会耗尽。随后,根据恒星的质量不同,它会开始融合氦元素或停止融合。在停止融合后,这颗恒星的核心会开始崩溃。与此同时,外层的气体会向外扩张而远离中心,形成红巨星。最后,外层气体散去,剩下的中心开始冷却,这颗恒星就形成白矮星。
图7.19 散布图:将恒星依照温度和亮度来分群
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。