首页 理论教育 基于朴素贝叶斯的信息推荐系统

基于朴素贝叶斯的信息推荐系统

时间:2023-10-31 理论教育 版权反馈
【摘要】:虽然概率是描述型的,但要应用概率去预测一个目标元组的类别归属,因此朴素贝叶斯既可被视为描述型算法又可以被视为预测型算法。本节提出一种基于朴素贝叶斯分类的信息推荐算法,即将朴素贝叶斯分类方法应用于文档资源的推荐,将基于内容的推荐看成是文档资源的分类问题。根据该公式,基于朴素贝叶斯分类的信息推荐算法将推荐评分排名Top-N的信息资源推荐给目标用户,从而完成基于内容过滤的信息推荐过程。

基于朴素贝叶斯的信息推荐系统

朴素贝叶斯分类(Naive Bayesian Classifier)基于贝叶斯定理,它是一种统计分类方法,被用来预测类成员关系的可能性[19]。它假定一个属性值对给定类的影响独立于其他属性值,这一假定被称为类条件独立性,在该假定下计算可以得到简化,这也正是“朴素”的含义。通过分析每个“独立的”属性所起的作用,可以确定一个条件概率。将不同的属性对预测所起的作用组合起来就可以用于分类。虽然概率是描述型的,但要应用概率去预测一个目标元组的类别归属,因此朴素贝叶斯既可被视为描述型算法又可以被视为预测型算法。本节提出一种基于朴素贝叶斯分类的信息推荐算法,即将朴素贝叶斯分类方法应用于文档资源的推荐,将基于内容的推荐看成是文档资源的分类问题。

朴素贝叶斯分类的信息推荐算法将文档资源看成是取自同一个特征词表(Term Vocabulary)的有序的特征词事件序列,并假定每一个特征词事件的概率均依赖于文档资源的类型,而与特征词在文档资源中出现的位置和上下文环境无关[20]。其算法基本思路是:首先定义一组训练文档资源,并先让用户对这组文档资源进行分类和评分,在分类和评分的基础上,算法计算每个特征词属于某个类别的条件概率,从而得出用户的特征描述。然后根据这个特征描述计算推荐资源候选集中的各个文档资源属于某个类别的后验概率。最后,算法将这个后验概率作为文档资源的推荐预测评分并将具有最高评分的推荐资源提交给用户。

朴素贝叶斯分类基于以前的训练文档资源集,预测出目标资源Dj(1≤j≤N)属于资源类别Ci(1≤i≤M)的概率。即对于给定的目标资源Dj,它属于资源类别Ci的后验概率,可以通过如下的贝叶斯规则进行计算:

因为P(Dj)对于任一类别Ci来说都是同一常量,故它对于预测目标资源所属类别无实际作用,在计算中应忽略。P(Dj|Ci)是先验条件概率,其值可通过训练文档资源集进行计算。但是,同一资源Dj被多次推荐给用户的可能性并不大,因此训练数据存在“数据稀疏”问题,这将导致已有的训练数据不足以准确计算条件概率P(Dj|Ci)。在实际计算过程中,信息推荐算法根据朴素贝叶斯分类的“类条件独立性”原理,认为标识文档资源内容的一组特征词之间是互相独立的,它们对文档资源标识和分类起着各自独立的作用。因此,信息推荐算法通过分析每个独立的“特征词”属性所起的作用,就可以确定一个条件概率,将一组的“特征词”对预测所起到的作用组合起来就可以用于分类。基于以上的分析,条件概率P(Dj|Ci)可以计算如下:

在公式(3-12)中,|T|为标识文档资源的一组特征词的数量,W(tk,Dj)为特征词tk(1≤k≤|T|)在文档资源Dj中的权重,P(tk|Ci)表示为在给定资源类别Ci(1≤i≤M)的条件下,特征词tk在该类别文档资源中所出现的词频概率。P(tk|Ci)的计算方法如公式(3-13)所示,其中,|tk,Ci|表示某个特征词tk(1≤k≤|T|)在所有属于类别Ci的文档资源中所出现的词频次数;而则表示所有属于类别Ci的文档资源中的不同特征词一共出现的词频总次数。(www.xing528.com)

在分类完成之后,信息推荐算法就可以对文档资源进行推荐。在实际应用中,可以对每个不同的文档类别指定一个评分值,即对应于M个资源类别,可以指定M个评分等级。例如,资源类别Ci(1≤i≤M)中的所有文档资源,可以指定其评分均为i。因此,信息推荐算法通过朴素贝叶斯分类算法将某个资源文档进行分类,将其划分到某个资源类别中,再将其映射成对应资源类别的评分,从而产生信息资源的推荐评分。同时,考虑到后验概率值的离散性问题,在计算推荐评分时应考虑到每个类目的推荐评分。例如,当资源类别数量为10(即M=10)时,用户评分1~10对应于10个类别。但是,当有多个资源类别的后验概率非常接近时,如资源类别C5、 C6、 C8(对应的评分为5、6、8)的后验概率为0.231、0.228、0.225,单纯由概率最大值0.231来决定目标资源Dj属于类别C4或者Dj的推荐评分为5,显然都是不准确的。因此,在设计信息推荐算法时,算法所产生的目标资源推荐评分应考虑到所有的资源类别,即所有资源类别推荐评分的数学期望值的总和[20],如公式(3-14)所示。其中,RecomScore(Dj)表示目标资源Dj(1≤j≤N)的推荐评分,M为文档资源类别数量。从公式(3-14)也可以看出,P(Dj)在预测目标资源的推荐评分时无实际作用。

根据该公式,基于朴素贝叶斯分类的信息推荐算法将推荐评分排名Top-N的信息资源推荐给目标用户,从而完成基于内容过滤的信息推荐过程。

除了以上两种经典的信息过滤推荐算法之外,我们还可以根据用户的反馈信息对用户兴趣模型进行更新,使之越来越接近用户的实际兴趣和偏好,从而产生更加精准、个性化的信息推荐。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈