在前面的3章中建立了基于分类模型和回归模型的个性化推荐方法,并且都利用了用户的行为信息和项目的内容信息,但在实际应用中,这些数据中绝大部分都没有标签信息,而有标签的数据却很少,对发现用户潜在的兴趣和偏好相当不利。如何利用有限的有标签数据和大量的无标签数据建立“用户-项目”之间的关联关系模型,并预测用户对项目的兴趣和偏好,从而实现在标签数据稀少情况下的高质量个性化推荐成了亟待解决的问题。半监督学习和主动学习恰好可以很好地解决对无标签数据的利用问题。半监督学习是针对自己可以了解到的关于无标记数据的一些信息,对无标记数据进行标注并利用;相反,主动学习是探索无标签数据的未知信息,根据一定的策略对这些无标签的数据进行查询并借助领域专家对其标注。这样可以利用少量的有标签的“用户-项目”关联关系数据和大量的无标签的“用户-项目”关联关系数据建立基于模型的个性化推荐方法,并在一定程度上提高对用户潜在兴趣和偏好的发现能力。
为此,提出了基于主动学习的半监督支持向量机推荐算法(Semisupervised Learning combining Transductive Support Vector Machine with Active Learning,ALTSVM)来解决该问题。该方法利用主动学习策略中的可行域划分最小化原则来选择信息量最大的样本进行标注(目的是获得对分类器提升最有价值的样本集,并且使该样本集尽可能的小,从而降低标记样本的代价);同时为了在训练的过程中对无标签数据的分布特征进行很好的利用,在分类模型中引入了基于图的流形正则项,进一步提升模型对无标签数据中隐含的有价值的分布信息的利用能力,来训练半监督直推式支持向量机分类模型。
同时,为了更好地利用用户有价值的评论信息,通过对用户的评论信息进行挖掘,并将有价值的评论信息加入特征向量中进一步利用用户的标签数据(评价信息在一定程度上反映了用户的某种偏好和兴趣),这样可以进一步挖掘用户潜在的兴趣和偏好。
图6.1描述了基于主动学习的半监督直推式支持向量机并结合用户的评论信息进行个性化推荐的框架。该推荐方法利用主动学习来查询那些对分类器性能提升最有利的样本,并将其提交给用户,然后用户标记提交的无标签样本,得到有标签的样本并将其加到训练数据集中,对模型进行重新训练,得到新模型,反复迭代,不断提升个性化推荐系统的推荐质量,直到满足结束条件。同时,为了进一步改进推荐系统的推荐质量,将用户有价值的评价信息加入了训练数据中。(www.xing528.com)
图6.1 基于主动学习的半监督支持向量机与用户评论的个性化推荐方法
Fig.6.1 Personalized recommendation method based on ALTSVM and User Reviews
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。