首页 理论教育 概貌属性信息增益分析在推荐系统中的应用

概貌属性信息增益分析在推荐系统中的应用

时间:2023-11-21 理论教育 版权反馈
【摘要】:由于每个概貌属性计算侧重点不同,本书使用信息增益的概念得到每个概貌属性在概貌分类时所起的作用的大小。属性RDMA对随机攻击和流行攻击的信息增益值高,RDMA对捕捉偏离项目平均值的评分信息较有效。

概貌属性信息增益分析在推荐系统中的应用

在机器学习过程中,经常使用信息增益来评价一个属性对分类系统的重要性。一个属性的信息增益越大,表明属性对样本的熵减少的能力越强,这个属性使得数据由不确定性变成确定性的能力也越强。一个特征属性能为分类器带来的信息越多,该特征属性越重要。显然,某个特征项的信息增益值越大,表示其对分类的贡献越大,对分类也越重要。因此通常选取信息增益值大的特征向量[129]。由于每个概貌属性计算侧重点不同,本书使用信息增益的概念得到每个概貌属性在概貌分类时所起的作用的大小。在托攻击检测中,决定一个概貌属于正常概貌集P或者是托攻击概貌集合N需要的信息用熵的定义可以这样计算:

图5.2基于SVM和目标项目分析的托攻击检测方法流程

其中p是P类元素的个数,而n是N类元素的个数。假如属性A可以将集合S分成集合{S1,S2,…,Sv},所需要的信息熵E(A)可以通过公式(5.6)计算。

其中,pi是P类元素,ni是N类元素。那么属性A的信息增益G(a)可以由公式(5.7)计算:

信息增益值在不同条件下的是不同的。本书计算了当攻击规模是5%,攻击填充规模从1%到50%不等,目标项目ID随机生成,重复50次条件下的信息增益值的平均值。表5.1展示了各个属性的信息增益值。

表5.1 推攻击下各个概貌属性信息增益值

(www.xing528.com)

表5.2 核攻击下各个概貌属性信息增益值

从表5.2中可以看出,不管是在推攻击还是在核攻击类型中,LengthVariance概貌属性的信息增益值较高。对一个概貌,如果LengthVariance值太高的话,不太可能是正常概貌,而极有可能是程序生成的注入托攻击概貌。属性RDMA对随机攻击和流行攻击的信息增益值高,RDMA对捕捉偏离项目平均值的评分信息较有效。

实验数据集使用MovieLens 100K数据集,向评分矩阵中注入填充规模分别是5%、10%、15%和20%,攻击规模为5%的随机攻击概貌(推攻击和核攻击)时,分别计算各种概貌属性的信息增益值,实验结果如图5.3和图5.4所示。

图5.3 推攻击下个概貌属性信息增益随填充规模变化

图5.4 核攻击下个概貌属性信息增益随填充规模变化

在基于支持向量机和目标项目分析的托攻击检测算法中,选择使用RDMA、DegSim、WDMA、WDA、LengthVar、MeanVar、FillerMeanDiff等属性。另外算法使用了基于DegSim概貌属性提出的一种新的属性值DegSim’。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈