一个好的推荐系统对于各种网络平台来说都是至关重要的,好的推荐系统可以依据相关信息准确捕捉用户的兴趣爱好,帮助用户找到其喜欢但是又不知道如何表述需求的信息。那么如何评价一个推荐系统的好坏呢?就需要给出推荐系统的测评指标。常用的评价指标包括用户满意度、预测准确度、覆盖度、多样性、新颖性和惊喜度等。
1.用户满意度
用户满意度是评价推荐系统性能优劣的重要指标,该指标一般通过对用户调查和在线收集获取。其中用户调查法常采用问卷调查的方式,为了达到较好的效果,问卷的设计要综合考虑多种因素,从多个侧面反映用户的满意度;在线收集法通过用户的在线行为来衡量用户对推荐结果的满意程度,最为简单的行为反应是:用户阅读了系统推荐的信息,此时认为用户对推荐结果是满意的,稍微复杂的在线收集方法为:设计信息反馈窗口。以上两种方法是比较直接、传统的方法,随着人工智能技术的发展,推荐系统可依据用户的点击率、在某条信息的停留时间等,量化用户的喜好度,从而更为客观地评价用户对推荐系统的满意度。
2.预测准确度
与上述的满意度指标相比,预测准确度更为重要,该指标是一个离线评价指标。该指标的计算需要有训练集和测试集,训练集用于训练预测模型,测试集用于检测预测的性能。预测准确度的评价指标为查准率(Precision)和查全率(Recall),两个指标的计算方法如下:其中,R(u)是依据训练集上用户的行为给出的推荐结果,T(u)是依据预测模型在测试集中得到的推荐列表。
3.覆盖率
覆盖率是一个可以量化的评价指标,一般情况下,覆盖率是指推荐系统为所有用户推荐的信息量占信息总量的比例。假设系统涉及的用户总量为集合U,任意用户u∈U,系统为用户u推荐的信息量为R(u),系统涉及的信息总量为I,则覆盖率Coverage的计算公式为:
4.多样性(www.xing528.com)
理论上,一个用户一般有多个兴趣,如果推荐系统以单一的模式进行信息推送,而在某个时间点用户感兴趣的并非是该类信息,则用户满意度就会降低。好的推荐系统应该能依据数据挖掘方法对用户进行多兴趣挖掘,使得信息推荐列表能覆盖用户的多个兴趣。多样性的量化计算公式如下:
其中,R(u)是系统为用户u推荐的信息,s(i,j)∈[0,1]为信息i和j之间的相似度。系统的多样性为所有用户信息推荐多样性的平均值,计算方法如下:
5.新颖性和惊喜度
新颖性和惊喜度是两个相似而又不同的评价指标,相似的地方是二者均在一定程度上“突破常规”,不同的地方是:新颖性强调“新”,即用户是否听说过这个推荐的信息,如果没有听说过,则系统实现了新颖性的目的;而惊喜度强调的不只是“新”,是在“新”的基础上还满意。
新颖性一般采用如下方法度量:①信息的冷门程度;②信息的出现时间;③信息和用户兴趣的偏离度。惊喜度实现的难度较大,该指标需要将“新”和“满意”二者结合进行度量,在未来的研究中可以尝试通过将新颖度的评价指标和满意度的评价指标融合,实现对惊喜度的有效度量。
推荐系统除了考虑上述几种评价指标外,常常还需要考虑具体的评价维度,常用的评价维度为用户维度、信息维度和时间维度。用户维度主要考虑用户的相关信息,包括基本属性信息、活跃度等;信息维度用于度量信息的相关属性,包括信息的流行程度、推荐频度、发布时间等;时间维度是推荐信息或者用户和时间相关的内容,对信息而言涉及信息的发布时间,对用户而言,涉及用户的阅读喜好时间、信息停留时间等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。