(1)数据集与评价指标
本节实验以豆瓣网站的用户电影数据为例,利用爬虫技术从豆瓣网站共获取1294人的用户基本信息,包括用户地址、用户个人简介、用户的电影标签,还爬取了11421条用户电影评论、38820条电影评分以及31111条电影信息。我们从该原始评分数据集中进行筛选,剔除信息不全的用户即缺少了用户各属性信息中的任意一项,从剩余用户中随机抽取了500名评分次数较多的用户将其数据信息作为本次实验的数据集,其中300名用户的信息作为模型的训练集,200名用户作为最终的实验测试集。
本节采用精确率(Precision)作为实验过程中的评估指标。精确率(Precision)表示测试为正的样本中有多少是真正的正样本,它是针对预测结果而言的,因此其又称查准率。计算公式如公式(8-13)所示:
在本实验中,我们可以将精确度理解为推荐电影的准确率,可用公式(8-14)来计算:
公式(8-14)中,表示根据推荐算法产生的推荐电影的总数量,代表系统推荐出的电影中符合用户偏好的电影数量。
(2)实验结果与分析(www.xing528.com)
在主题模型中我们设定其参数α=1,参数β=0.01,主题数目K设置为5,即我们通过主题模型可以得到每个用户5维的主题向量,设置主题下的高频主题词的数目M为10,所得的主题及主题词如表8-6所示:
表8-6 主题及主题词表
为验证提出的模型与方法有效性,特选择传统的协同过滤推荐及本节提出的基于用户画像的协同过滤算法,与之进行精确率(Precision)测试结果的对比,对比结果如图8-6所示。
从表8-6中我们可以明显看出针对电影用户评论抽取出的五类用户兴趣主题,基于此计算各属性相似度,并将各属性特征融入协同过滤算法中,我们看到图8-6的实验过程中,分别赋予了最近邻居(Nearest neighbors)不同数值(图8-6中横坐标0~50),通过对Nearest neighbors数目的变化对上述两种算法Precision值的变化情况进行比较。推荐结果表明,在我们的利用豆瓣用户数据集进行测试时,随着Nearest neighbors数目的不断增多,基于用户画像的协同过滤推荐算法的Precision值逐渐增大,直到一定程度趋于稳定,且在Nearestneighbors取30时实验结果达到最佳;而与传统的协同过滤推荐相比较,实验结果也显示出本节提出的基于用户画像的推荐算法其Precision值明显高于传统的协同过滤推荐方法,表明基于用户画像的推荐算法比传统推荐算法的误差更小,推荐结果更符合用户的需求。本节提出的电影推荐模型更好地将用户自然属性标签、兴趣属性标签、行为属性标签融入推荐过程中,在推荐中加入用户兴趣偏好信息,在一定程度上缓解了评分数据的稀疏问题,从而有效地提升系统的推荐效果。
图8-6 Precision对比结果
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。