(1)实验过程
基于向量空间模型进行资源特征表示。统计每一部电影的主题分布,如果电影是某一主题,则该电影在该主题下的值为1,如果不是,则该值为0,电影和主题的对应关系在豆瓣电影页面的元数据中获取,这种主题分布的结果,实际上即可以认为是该资源的20维特征向量,特征为其主题。统计结果如表3-2所示。
表3-2 电影特征向量
续表
基于向量空间模型进行用户兴趣表示。首先对选取的170名样本用户的观影记录按时间先后进行划分训练集和测试集,较早的前70%观影记录作为训练集,用于兴趣建模;较晚的30%观影记录作为该用户的测试集,用于效果验证,比对试验效果。利用训练集中的影片主题分布对每个用户进行兴趣建模,对每一个用户累加其在各个主题下的观影数量,以累加之和代表用户对这一主题的感兴趣程度,形成基于绝对频次的用户兴趣向量。用户兴趣向量表示如表3-3所示。
表3-3 基于绝对频次的用户兴趣向量
在基于绝对频次的用户兴趣向量的基础上,利用资源库中各主题下的资源量进行调权处理,计算方法如公式(3-15)。得到调权后的用户兴趣向量,为方便表示,对每个用户兴趣向量中的权值进行归一化处理,其数据如表3-4所示。
表3-4 基于主题热度调权的用户兴趣向量(www.xing528.com)
(2)实验结果
分别将基于绝对频次的用户兴趣向量和基于主题热度调权的用户兴趣向量在资源候选集中进行相似度匹配,相似度计算方法使用余弦相似度。若多个资源和用户兴趣相似度相同,则取热度较高的推荐。为检测不同推荐列表长度下二者的准确率差异,本节以10为步长,分别计算P@10、P@20至P@100。实验结果对比如图3-4所示。
利用基于主题热度调权的用户兴趣建模策略取得的推荐准确率,在N等于10至100不同的列表长度上取得的效果均远大于利用基于绝对频次的用户兴趣建模进行推荐获得的准确率。其中基于主题热度调权的推荐下的P@10为4.24%,基于绝对频次的P@10则为2.71%,在此一项上前者高于后者1.53%,达到最大差异。而随着推荐列表的不断增长,误召回的结果大幅增加,两个策略的准确率都开始下降,基于主题热度调权的建模策略下,推荐列表长度为50时准确率开始低于2%,而基于绝对频次的建模策略下,推荐列表长度为30时推荐的准确率即已低于2%。本节策略的效果比基于绝对频次的推荐效果平均高0.59%,全程保持在两倍列表长度时推荐准确率大于或等于后者。
图3-4 实验结果对比图
(3)结果分析
通过推荐准确率的对比可以看出,基于主题热度调权的兴趣建模效果要好于基于绝对频次的兴趣建模,即基于不同主题下资源数量的兴趣特征调权做法可以更好地反映用户兴趣偏好,达到优化兴趣建模的作用。可以看出,当某一主题的资源获得较多的展示机会时,用户选择该主题资源的可能性较大,并不能直接说明用户对这一主题十分感兴趣;相反如果用户对相对冷门的主题资源上选择较多时,则说明用户对这类资源可能兴趣强烈。可以认为不同主题展示频率对用户选择影响较大,由资源数量造成的兴趣偏差在文本策略中利用主题热度调权的做法进行控制,并在随着用户数据变多推荐结果更加精准。
另外,推荐列表短的时候收到的效果最好。随着推荐列表长度的增加推荐准确率持续下滑,误召回增多的原因是,50.58%的用户测试集列表长度不超过30,即测试集中用户观影数量不超过30部,所以当推荐列表超过30时,即便命中较多,也势必会有大量的误召回产生。由于用户的时间成本和认知精力有限,在较短的推荐列表中取得较高的准确率符合推荐系统的基本要求,因此结果具有一定的推广价值。
值得注意的是,即便比对照方法要好,本节策略的推荐准确率并不高。这是由于本节的重点在假设主题热度会对兴趣建模造成偏差,并提出一种可行的调权方法进行对比,验证上述假设与解决方法的效果,而不在于提出一种推荐算法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。