基于情境感知的推荐系统中,每个情境因素对读者的影响值不同,有的情境属性在推荐过程中对读者的影响力较大,有的情境属性影响力较小。本节利用条件熵来计算各情境属性在推荐过程中的影响值,区别出不同影响力的情境属性,并根据情境条件熵度量各情境属性在推荐过程中的权重。
(1)用户情境条件熵
熵,起源于经典热力学的熵,用来度量系统的无序程度,在信息系统中,许多学者利用熵或其变形来度量知识的信息粒度,进而反映知识的不确定性。熵可以理解为随机变量不确定度的度量,也可以看作系统有序性的度量,不确定度越小,则有序性越强,熵值越小;反之不确定性越大,则无序性越强,熵值越大。
条件熵[22]是信息熵的一种度量,它表示如果已经完全知道第二个随机变量X的前提下,随机变量Y的信息熵还有多少,即在已知一个变量的基础上,另一个变量的不确定性程度。读者在某情境属性下对于资源感兴趣的程度也有较大差异,比如读者在工作日和周末对信息资源的选择会产生较大差异;而在有的情境属性下对于信息资源类型的选择没有很大区别,那就表示此情境属性对于读者选择资源时间没有较大影响。所以,情境条件熵决定了读者在资源类型选择时的不确定性。
本节将条件熵应用于情境感知的推荐系统中,表示已知某一情境属性的前提下,读者选择项目的不确定性。条件熵值越大,该情境属性对于读者选择资源类型的影响值越小;条件熵值越小,该情境属性对于读者选择资源类型的影响值越大。情境条件熵的定义如下:
其中,每个情境属性c有m个情境值,P(ci)为情境因素中情境属性为ci的概率。P(Ij|ci)表示在情境属性为ci的条件下读者选择Ij类资源的概率。情境条件熵H(I|c)的值越大,情境属性c对于读者选择资源类型时的参考重要度越小;H(I|c)的值越小,情境属性c对于读者选择资源类型时的参考重要度越大。当P(Ij|ci)为0时,即读者在情境属性ci下选择Ij类资源的概率为0,那么H(I|c)趋向于最小值0;当P(Ij|ci)为1时,即读者在情境属性ci下选择Ij类资源的概率为1,那么此时H(I|c)等于最小值0,即情境属性ci对读者选择资源的影响最大,读者在情境属性ci下会选Ij类资源。
(2)情境权重
在某情境因素环境下,情境权重表示该情境属性对读者在选择资源类型时所占的比重。情境条件熵值越小,表示已知该情境属性后,读者选择资源类型的不确定性越小,情境属性对于读者选择资源类型时的影响值越大,即该情境属性在资源推荐中所占的权重值就越大。条件熵值越大,情境属性对于读者选择资源类型时的影响值越小。情境权重的计算方法如下:
H(I|c)表示c情境条件熵的值,d是情境属性的个数。情境权重与情境条件熵成负相关,情境条件熵值越小,该情境属性所占权重就越大,它对于读者信息推荐所起的作用就越大。情境条件熵H(I|c)越小,此情境属性所占的权重Wc值越大,即此情境属性在被推荐资源中所占的权重值越大,对于推荐过程中所起的影响就越大。
(3)基于情境条件熵的情境影响(www.xing528.com)
情境属性对于读者选择被推荐资源具有一定的影响作用,读者在不同的情境条件下对资源有不同的偏好,不同的情境属性也有不同的重要性。例如,在“周”情境属性——周末和工作日两个情境值下,读者在周末更倾向于选择娱乐类资源。然而,对于系统推荐的学术性资源,在地点情境属性“家”和“办公室”中,读者可能更愿意在“办公室”选择学术类资源。对于同一种信息资源,不同情境下读者的选择不同,在同一种情境环境中不同的情境属性值下读者的选择也可能不同。在推荐服务中,可以利用情境条件熵度量情境因素的重要性从而衡量每种情境因素对推荐资源的影响程度,并计算各情境因素所占不同的比重。
表7-1是基于情境条件熵的读者在不同的情境因素下对推荐资源的选择。一共有6组读者日志记录。所采用的简单的数据集包括3个情境属性(周,地点,时间);被推荐的项目I;读者给出的评价。其中,情境属性的取值情况如下:周(W)={weekday=1,weekend=0},地点(L)={office=1,home=0},时间(T)= {work=1,rest=0},被推荐的项目(I)={entertainment=1,academic=0}。
表7-1 简单的情境感知推荐系统实例数据集
①计算各情境属性取值的概率,以及条件概率。
“周”情境属性值为工作日的概率是,属性值为周末的概率是。在情境属性值是工作日的前提下读者选择娱乐型资源的概率是;情境属性值是工作日的前提下读者选择学术型资源的概率是。情境属性值是周末的前提下读者选择娱乐型资源的概率是P(I=0|W=0)=0;情境属性值是周末的前提下读者选择学术型资源的概率是P(I=1|W=0)=1。
②计算各情境属性的条件熵。
对于周,H(I|W)=-[2/3*1/2*log2(1/2)+2/3*1/2*log2(1/2)+1/3*0+1/3*0]=0.667,即周情境属性下的条件熵是0.667。同理,地点情境属性条件熵为H(I|L)=0.874,时间情境属性条件熵为H(I|T)=0.918。
③计算情境属性权重。
因此,Wweek=(1-0.667)/(3-(0.667+0.874+0.918))=0.616,Wlocation=0.233,Wtime=0.152。“周”对于读者选择资源的影响值为0.616,在各情境因素中所占的权重为0.616,同理,“位置”所占权重为0.233,“时间”所占权重为0.152。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。