学习资源的关联规则发现是将学习者使用的学习资源具体类型和顺序构成一个学习会话,通过关联规则挖掘情景会话与学习会话之间的关系,并按照一定的支持度和置信度提取和保留有用的规则进行学习推荐应用。关联规则挖掘一般被用来描述数据项之间所存在的关系的规则,即某些项可能会同时出现在一个事务中这种数据间的关联。关联规则的数据挖掘一般分为两步:第一步是从数据集合中找出所有的频繁项集(Frequent Item Sets),第二步为根据频繁项集分析得到关联规则(Association Rules)[72]。
关联规则的数据挖掘有两种,最基本的是针对单层关系的数据集分析。其流程为:假设I={I1,I2,…,Im}为一个或一个以上的项目组成的集合,称为项目集,事务(Transaction)t是I的非空子集,即t∈I, 关联形式表现为X⇒Y的蕴涵式。其中X,Y∈I且X∩Y∈φ,X和Y分别称为关联规则的先导和后继,关联规则X⇒Y在D中的支持度(support)为D中事务包含X∪Y的百分比,置信度(confidence)是包含X的事务中同时包含Y的百分比。如果数据结果的支持度和置信度均超过阈值,则认为该关联规则有效。
以表7-2为例,学习资源的项集I={I1,I2,I3,I4}。 对于关联规则:I1⇒I2, 支持度support==0.5,置信度confident==0.6。若给定最小支持度和最小置信度均为0.5,即可以认为I1与I2之间存在关联。
表7-2 学习资源关联事务示例(www.xing528.com)
关联规则的数据挖掘算法有很多,其中最基本的无监督学习算法为Apriori算法,该算法属于单维、单层的关联规则挖掘算法,主要利用了频繁项集的非空子集也是频繁的先验性质。算法的主要过程为:首先扫描数据库,确定各“1项集”的支持度,筛选满足最小支持度的集合L1,L1用于找频繁“2项集”的集合L2,以此类推,直到因为无法满足最小支持度要求而不能产生频繁项集为止。
Apriori算法的改进算法有很多,例如增加抽样(Sampling)技术、分区(Partition)算法和DHP(Direct-Hush and Prune)算法等提高算法的计算效率,以及泛化关联规则及周期性的关联规则等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。