通常情况下,用户有多个方面的兴趣爱好,而已有基于关键词的向量空间模型难以区分特征关键词所表征的是用户哪一类兴趣偏好。为了充分利用用户各种文本信息以建立全面而精准的用户画像,有学者提出了基于主题的用户画像方法。Blei等[16]在研究中提出了一个包含词、主题和文档三层结构的LDA模型,该研究通过三层贝叶斯网络生成文档主题模型,可广泛应用于话题跟踪、知识发现、主题挖掘中,成为当前最具代表性的主题挖掘模型。Gao等[17]针对Twitter用户构建用户画像,在研究中利用了基于话题标签、实体和话题的用户画像方法,通过丰富语义来提高用户画像的多样性和准确性。朱志良等[18]从多个角度描述用户的偏好,讨论用户对历史新闻的偏好程度,使用LDA作为语言模型来检测潜在的主题,表达每条新闻的主题分布,提出了一个用户画像模型,并通过实验证明了该方法构造的用户画像有效提升了推荐效果。贺明等[19]融合内容和协作过滤技术提出了一种基于用户画像树(UP-Tree)的新闻推荐框架UP-TreeRec,通过利用一种新颖的主题模型UILDA,获得了主题空间中新闻内容的表示向量,将其作为用户兴趣与新闻主题相关联的基本桥梁,然后设计具有动态可变结构的决策树,根据用户的反馈来构建用户兴趣画像,利用该画像大大提高了新闻推荐的准确性和有效性。马超[20]对目前主流的用户画像分析算法进行分类,并指出现有算法主要有两方面不足:一是现有算法多利用社交网络结构信息的无监督学习,算法的预测精度是相对较低的;二是现有算法过于依赖用户自产生数据,使模型不能很好地在不同社交网络数据集中进行迁移。由此,研究过程使用标签传播算法提出了基于主题模型的半监督学习算法框架,该框架能够将部分已知用户属性信息作为监督信息加入模型中,并可有效地利用社交网络的网络结构信息,使得模型的性能与鲁棒性大幅提高。但是,该算法框架在细微之处还不太完善,在社交网络结构与文本文档结构转换、用户多属性预测分析等方面还存在进一步改进的空间。
总之,基于主题的用户画像方法相较其他画像方法优势在于其可以通过主题模型等方法抽取用户的主题兴趣,将用户兴趣与主题倾向相关联,能够一定程度上描述用户兴趣的多样性,增强推荐算法的有效性。需指出的是,一方面运用基于主题的用户画像方法在进行信息推荐时需同时考虑用户与资源文本,实现主题信息共享。另一方面,目前的研究也大多仅仅局限于文本的主题挖掘,没有考虑到用户信息资源的多样性,忽略了用户图像信息和其他多模态资源信息中所包含的用户主题特征,在未来的研究中需要注意画像信息的全面性,以此构建更为精准的用户画像来提升推荐系统的效果。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。