为了评估未标记数据在标记数据非常少的情况下所起到的作用,在实验中通过改变标记数据的数量来对比分析TSVMAL+Graph,SVM,TSVM和TSVMAL的分类性能。在实验中标记样本比例的变化区间为2%~20%,未标记样本的总数量为500个。图6.6、图6.7描述了4种方法随着标记样本数量的变化,而引起的分类准确率的变化曲线,其中SVM和TSVM作为4种方法中的比较基准。
通过观察图6.6、图6.7可以发现,正如预期,算法TSVMAL和TSVMAL+Graph随着标记样本数量的增加,准确率也在不断增加。仔细观察可以发现,当标记样本的数量非常小时,TSVMAL+Graph的分类性能已经明显优于SVM和TSVM,例如标记比例为4%时,标记样本为4%×500=20。在图6.5中,当标记样本的比例为4%时,TSVMAL+Graph的分类准确率比SVM和TSVM两种提高了大约3%;在图6.7中,TSVMAL+Graph的分类准确率比传统的SVM方法提高约3%,比TSVM方法提高约2.5%。同时,图6.6—图6.7也表明TSVMAL算法在样本数量比较少的情况下,分类性能也比较好,并且随着标记样本数量的增加,TSVMAL的分类准确率也在逐渐提高,比SVM和TSVM的分类准确率都要高。总之,通过对这两个图的观察可以得出这样的结论:TSVMAL+Graph算法的分类性能无论是在标记样本数量比较少的情况,还是标记样本数量比较大的情况,都高于其他3种算法。因此,不管现有的标记样本数量有多少,都可以将TSVMAL+Graph算法运用到现实应用中,因为与传统的SVM和TSVM进行比较,它总会产生相当或更好的效果。
图6.6 “词法视角”对应的分类准确率曲线
Fig.6.6 The classification accuracy rate curve corresponding to Lexical perspective
图6.7 “统计视角”对应的分类准确率曲线
Fig.6.7 The classification accuracy rate curve corresponding to Statistical perspective
图6.6—图6.7从不同的角度对图书评价数据集进行分类,相同方法之间存在一定的准确率差别,“词法”视角的分类准确率比“统计”视角的准确率要高。这种差别可能与数据建模时的统计特征有关。但值得注意的是,本章提出的方法在这两种不同的视角下,分类性能都高于基准方法SVM和TSVM。说明本章提出的方法具有较强的泛化能力。
将挖掘到的用户有价值的评论信息作为用户兴趣属性加入原始数据集中,形成新的数据集。将新形成的“用户-图书”间的关联关系特征数据按照70%训练和30%测试的原则,随机分成两部分。
该实验主要包括两个实验,一是对比分析在引入评价信息前后对图书推荐效果的影响;二是将本章提出的方法与其他方法进行对比分析,以表明本章提出方法的有效性。
(1)评价信息引入前后对图书推荐效果的影响
为测评在引入评价信息前后对图书推荐的影响,主要通过两种方法来测试。一种是TSVMAL+Graph,另一种是TSVMAL;此外,用BTSVMAL+Graph和BTSVMAL表示引入评价信息前的方法;TSVMAL+Graph和TSVMAL表示引入评价信息后的方法。图6.8给出了两种方法在引入评价信息前后的效果对比情况。(www.xing528.com)
图6.8 评价信息引入前后对推荐效果的影响
Fig.6.8 The impact of before and after inducting the reviews
通过图6.8可以发现在引入评价信息后对推荐准确率的提高起到了积极的作用。说明本章提出的图书评价信息挖掘方法对提升推荐准确有较大的帮助,对发现用户的兴趣和偏好相当有利。所以,将用户的有价值评价信息引入训练模型是正确的。
(2)对比分析几种方法的推荐效果
为更好地对比分析提出的ALTSVM算法(即TSVMAL+Grap)在个性化图书推荐上的效果,选择了SVM、BP神经网络、TSVM和TSVMAL等几种常用的监督与半监督学习算法进行对比,同时也与基于项目的协同过滤推荐算法进行对比分析,具体如图6.9所示。
图6.9给出了6种方法在引入评价信息后,不同标记样本比例下对应的推荐准确率。可以发现,本章提出的方法可以很好地对无标记样本信息进行发掘和利用。在样本数量非常有限的情况下,无标记的样本对分类器的提升也非常重要,而如何利用这些无标记的样本对主动学习来说是一个很好的选择。在每次迭代中,标记那些对分类器提升最有利的样本,然后加入训练集中,通过构造这样一个尽可能小且最有利于模型的样本集来训练模型。此外,本章的方法中也引入了流形正则项对数据的隐含几何信息进行发现和利用,提升了分类器的性能,具体见图6.8中的TSVMAL+Grap和TSVMAL两种方法对应的准确率曲线。
图6.9 不同标记样本比例在引入评价信息后对推荐效果的影响
Fig.6.9 Different labeled proportion impact of the recommendations after inducting the reviews
以上实验结果表明本章提出的方法在挖掘用户兴趣和偏好方面具有一定的优势,并且对推荐模型准确率的提升起到了促进作用。说明本章提出的方法在个性化的图书推荐方面具有一定的实用性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。