随着互联网信息技术的迅猛发展,用户通过浏览Web资源产生的行为数据激增。如何从海量的用户行为数据中挖掘出用户的兴趣爱好,建立有效的用户兴趣模型,发现和预测隐藏在数据中的模式信息——用户群体的共同行为、兴趣及个人用户的检索偏好、习惯等[1],成为热门研究话题。
用户兴趣模型是指利用一定的技术,综合用户行为习惯与资源信息,构建出用户的兴趣与爱好描述[2]。根据用户的兴趣和特点,利用用户兴趣模型,可以对信息资源进行收集和分类,向用户提供和推荐符合其兴趣偏好或需求的信息,以提高个性化服务的质量。
基于用户兴趣模型的应用遍布于Web环境的各个角落,如淘宝、京东等购物平台提供的“用户最近浏览的宝贝”“看了该宝贝的人还看了哪些宝贝”等提示功能,中国知网、万方数据等数据库商提供的“相似文献”“相关作者文献”“同行关注文献”“相关机构文献”等文章荐读功能。这些功能一方面给用户带来了良好的体验感觉;另一方面通过用户点击推荐的链接,能够在一定程度上增加网站的浏览量,提升网站的知名度。(www.xing528.com)
通过文献调研发现,目前已有许多学者对用户兴趣模型进行了研究:蒋萍、崔志明以动态询问的方式建立初始用户兴趣模型,通过分析、学习用户浏览行为历史,动态更新用户兴趣模型,有效地解决了用户兴趣的自适应变化[3];李清华、康海燕等提出了用户兴趣模型匿名化方法,用以解决个性化搜索技术所潜在的用户隐私信息泄露的问题[4];在图书馆服务中,陈基漓、牛秦洲对层次型用户兴趣模型进行研究,介绍了基于该模型的图书馆个性化推荐框架[5]。
本章用户兴趣模型的构建立足于图书馆所处的泛在知识环境,利用复旦大学图书馆ERU系统从网络底层统一采集的复旦大学读者访问各类电子资源数据库的行为记录,经过数据清洗,通过词频分析法,以文章分类号为基础,找出学科热门文章;通过Apriori算法,以会话ID为基础,将不同文章进行关联,找出相似文章。用户兴趣模型的构建和使用为复旦大学图书馆的Web个性化荐读服务打下了良好基础。相比较而言,淘宝、京东、中国知网、万方数据等用户兴趣模型构建的数据来源均为用户访问一个数据库所产生的记录,数据来源单一;而本用户兴趣模型的数据来源是用户访问100多个不同厂商数据库所产生的记录,具有多站点数据统一采集的特点,广泛的数据来源能提升用户兴趣挖掘的全面性和准确性。此外,前人对于用户兴趣模型的构建,多用文章题名、作者及文章分类号将不同文章进行关联;而本用户兴趣模型则使用会话ID作为区分文章属性的方法,同一会话ID中的文章被认为具备相似属性,存在一定的关联。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。