本节研究设计包括两个部分,研究方法的提出和评价指标的确定。研究方法的基本思路是以用户选择的资源的主题为兴趣特征,并利用推荐系统资源库中各主题下资源的数量进行对用户兴趣向量中的特征值进行调权;评价指标的确定则是选择合适的指标,对研究方法取得的效果进行评价,验证策略效果。
(1)研究方法
本节假定不同主题的资源获得的展示机会不同,导致用户更多地选取频繁出现的资源,进而造成后续兴趣建模偏差。为消除这种资源数量带来的偏差,要对进行用户选择的主题的特征表示进行调权处理。本节实验方法采用日志分析法,遵循获取数据、分析数据、差异对比的流程进行操作。整个研究的模型图如图3-3所示。
图3-3 用户兴趣模型研究流程图
①用户日志获取与处理。
用户兴趣数据获取一般分为显示方法和隐式方法,其中隐式方法已经成为兴趣获取方法的主流,即获取用户在网络上的操作行为数据和资源浏览记录等反应用户真实选择的数据。本节研究使用该方法,获取用户日志数据,其中应当包括用户对资源长期以来的选择结果。在此基础上,划分训练集与测试集。其中训练集包含用户早期的资源选择记录,用于提取用户兴趣数据,构建用户兴趣向量;测试集来自用户较近一段时间内选取的资源,用于验证不同兴趣建模策略的效果。这样划分的根据是用户的兴趣在一段时间内的是稳定的,即以过去的兴趣预测未来的兴趣做法是可靠的,同时兴趣建模的工作重点是基于历史数据对未来兴趣做出预测以提高推荐的准确率,因此本节在划分训练集与测试集时以用户选择资源的时间点进行划分,而不是随机进行选取。
②资源主题热度表示。
考察资源库中资源的主题特征,制定基本的主题描述框架,将资源库中的所有资源划分到不同主题中,以此计算主题在系统中的热度。主题的划分有两种方法,选择与抽取。若系统中已提供关于资源主题的元数据,则以此为特征选择的依据;若系统中未给出明确的主题元数据,则利用标签、评论等用户生成数据进行抽取。同时,由于资源的主题可能并不唯一,同一个资源可能会表达多个主题,因此资源将可以分在多个主题中。以此为基础统计资源库中各个主题下的资源数量,该数值代表该主题的在资源库中的热门程度,即该主题的热度,并最终作为用户兴趣调权的基础。
③基于主题热度的用户兴趣模型构建。
使用向量空间模型表示用户兴趣,基于绝对频次的用户兴趣向量表示为ui=(wu1,i,wu2,i,…,wut,i)。其中ui为用户i的兴趣向量,wut,i为用户i在主题t上的兴趣权重,计算方法为该主题的资源被用户选择的累积频次,这种表示方法的逻辑即传统意义上的用户高频次选择代表兴趣。而基于本节提出调权方法则计算用户对某一主题的相对喜爱程度,其用户兴趣向量为=,其中为用户i的兴趣向量,为用户i对调权后对主题t的兴趣权重,计算方法如公式(3-15):(www.xing528.com)
其中∑t为主题t下所有资源的数量总和,即一个主题在资源库中的绝对频次,该数据的统计方法在实验设计的第二步中已给出。由于资源数量带来兴趣失真即被∑t进行调整,调权后的用户对于主题t的兴趣权重即为。
④研究效果对比验证。
分别用基于绝对频次的兴趣向量和基于主题热度调权的兴趣向量在资源库中进行相似度计算,将与用户兴趣相似度高的资源作为推荐结果推荐给用户,在测试集中进行准确率比较。首先,将资源根据主题进行向量表示,rj=(wr1,j,wr2,j,…,wrt,j)。rj为资源j的特征向量,wrt,j为资源j在主题t上的权重。将第三步中的ui和分别和rj选择合适的方法进行相似度计算,由于兴趣表示使用了向量空间模型,相似度计算选择常用的余弦相似度计算方法,计算方法为公式(3-16):
其中u为用户u的兴趣向量,v为资源的特征向量,对比cos(ut,i,rj)的值与的值,将各自匹配出的相似度高的结果分别推荐给用户,若相似度相同则以该资源在所有用户中被选择的次数为标准进行二次排序,将前n项结果推荐给用户i,为验证效果不同列表长度上本节策略的效果,n可以取多个值分别进行比较。
(2)评价指标
用户兴趣建模的目的是给用户推荐符合其兴趣的资源,预测用户兴趣并最终改善推荐的效果,由于信息过载提升了用户的认知压力与时间成本,推荐系统中用户更关注准确率[29],即推荐列表中有多少是用户感兴趣的,而不是苛求一个大而全的推荐集合。因此兴趣建模的效果评价应当重点关注所推荐资源中,用户感兴趣的资源的占比,即考察推荐列表中靠前的项目是否准确,利用准确率P@N指标[30]进行用户兴趣建模的效果评价,P@N的计算方法如公式(3-17)所示:
公式中P@Nitem为前N项推荐结果中用户喜欢的比例,n为用户喜欢的结果数量,N为推荐列表的长度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。