1.问题描述
给定一组用户U={u1,u2,…,up},对任一用户ui,我们有其新闻浏览历史记录hi={ni1,ni2,…,nin}。其中,nik代表一篇新闻文档,拥有3个属性:
(1)用户阅读发生时间tik。即用户在tik时间阅读了该新闻。
(2)内容描述vik。新闻内容的描述方式取决于所采用的语言模型,比较常用的方法是采用向量空间模型(VectorSpaceModel),将新闻内容用一个或多个向量表示。
(3)新闻所属类别。这是网络新闻的一个重要特点,即每一条新闻都有确定的类别,如政治,体育等。新闻的类别反映了人们在对新闻知识分类的固定模式。新闻类别是以树的形式分层嵌套的,例如体育下包含篮球,足球等,篮球下又有可能包括NBA,国内篮球等。
每个周期T(通常是1天)内,外部新闻源会产生一系列新的新闻文档N={n1,n2,…,nq},个性化推介排序算法的任务就是由这些用户的历史浏览记录,为每个用户生成N的最优排序,以期符合用户的兴趣需求。实际上,这一排序问题也是一个过滤的过程,由于用户的总阅读量有限,排序较低的新闻相当于被过滤掉了。
2.单用户的排序算法
所谓的单用户问题就是指只有当前用户的浏览记录可得的情况下,如何生成个性化推介排序。这里我们指出一个假设。
假设:用户的浏览历史,反映了用户的兴趣和兴趣的变迁。(www.xing528.com)
基于这一假设,我们就可以设法从用户的浏览记录中对用户兴趣进行建模(User Profile Model),将新的新闻与此模型进行对比,以判断其符合用户兴趣的程度,进而根据这一相关度进行排序。这一类方法属于信息过滤下的自适应过滤领域(Adaptive Filtering),也叫基于内容的过滤(Content based Filtering)。
用户的兴趣一般分为长期兴趣和短期兴趣两种。所谓长期兴趣是指用户兴趣模型中比较稳定,变化较为缓慢的部分,比如某爱好运动用户对体育新闻的兴趣;短期兴趣是指会随着当前热点事件的产生而改变的兴趣,比如上述用户的兴趣会从世界杯转向亚运会。现有的一些用户兴趣模型大都考虑了从两个层次上对用户兴趣进行建模,当前的主流用户兴趣模型也基本都是层级型结构。然而,这些模型对用户的短期兴趣建模的精确程度并不高,因而在用户端起兴趣变化比较快的情况下,算法的准确度并不理想。
3.多用户的排序算法
所谓的多用户问题就是除当前用户之外还有其他多个用户的浏览记录可得的情况下,如何生成个性化推介排序。这里我们指出另外一个假设。
假设:当前用户感兴趣的内容,可由与其相似的用户推断得出。
基于这一假设,我们如果能设法找到与当前用户相似的用户群体,就可以从整个群体的感兴趣内容中来推断当前用户的感兴趣内容。这一类方法属于信息过滤下的协同过滤(Collaborative Filtering)领域。
在此类方法中,很关键的一步就是确定与当前用户相似的用户群体。由于个性化新闻排序这一问题的特殊性,使得用户的浏览记录以及浏览过的新闻文档内容都可以被用来计算用户相似度。现有的主流协同过滤算法可以做到这一点。然而,我们还可以设法利用用户兴趣模型(User Profile Model)中蕴含的信息,进一步辅助用户相似度的计算。这也是作者在多用户排序问题下的创新点所在。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。