(1)实验数据集
本实验所采用的数据集是利用RSS技术从著名的新浪博客网站抓取的2000篇博客文章。并使用包装器从抓取到的博客页面中抽取博客属性信息。然后实验系统将抓取到的博客推送到100名实验用户的手机中,记录用户阅读博客的行为,并以此作为实验的数据基础。
本实验采用的预测结果度量标准是MAE,即平均绝对误差,该度量通过计算预测用户评分与实际用户评分之间的偏差平均值来度量预测的准确性,MAE的值越小,证明预测的结果越精确。MAE的定义如下:
其中,pi表示预测的评分值,而qi表示实际的评分值,N表示数据集的数据个数。
图4-7 基于隐式评分的博客推荐技术的算法
为了确定公式(4-24)中参数α的值,在初步分析实验结果后,得到参数α和平均绝对误差MAE的关系如图4-8所示,可以看出当α=0.4时,MAE的值最小,此时系统的推荐精确度最佳。(www.xing528.com)
图4-8 两种博客推荐技术实验结果对比
(2)实验结果及分析
在实验中通过改变最近邻的个数,观察在不同最近邻数量情况下传统的基于项目的博客推荐技术和基于隐式评分的博客推荐技术的MAE值变化情况。我们采取渐进的方法选取最近邻的个数,以相同区间依次增加最近邻的个数。最近邻的个数分别为20、30、40、50、60、70、80、90、100。依次计算在这些数量最近邻的情况下传统的基于项目的协同过滤博客推荐技术和我们提出的基于隐式评分的博客推荐技术的MAE值,然后比较MAE值的大小。其具体计算结果如图4-9所示。
由图4-9的实验结果分析图表可以看出,基于隐式评分的协同过滤博客推荐技术比传统的基于项目的协同过滤博客推荐技术在预测评分值上更接近于实际值。随着最近邻个数的不断增加,基于隐式评分的协同过滤博客推荐技术的MAE值不断减小,且MAE值减小的幅度越来越大,说明推荐的精准度也在不断提高。同时,两种博客推荐技术的MAE值的差距越来越明显。该实验的结果证明我们所提出的基于隐式评分的协同过滤博客推荐技术比传统的基于项目的协同过滤博客推荐技术更有效、更精确。
图4-9 两种博客推荐技术实验结果对比
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。