目前,大多数基于内容过滤的信息推荐算法使用信息检索中常用的向量空间模型。在向量空间模型(Vector Space Mode,VSM)中,文档资源内容被形式化为多维空间中的一个点,通过向量的形式给出,把对文档内容的处理简化为向量空间中向量的运算,使得问题的复杂性大为降低。
一般来说,可以通过一组特征词来表示资源项目的特征,这样任何一个资源项目都可以表示成一个由特征词权重组成的向量,其中每个权重表示相应的特征词在该资源项目中的重要性。在VSM中,文档资源集或语料库可以表示为资源向量空间D= {d1,d2,…,dN},其中N为文档资源的数量;一组特征词可以表示为特征词向量T= {t1,t2,…,tn},特征词可以运用3.2中所述的文本特征词抽取技术,通过文档预处理、文档索引和降维等步骤从文档资源中获取。因此,对于文档资源集中任一资源项目dj(1≤j≤N),可以表示为一个n维向量dj= {wj,1,wj,2,…,wj,n},其中wj,k(1≤k≤n)表示向量中第k个特征词的权重,即其对资源项目dj的重要程度。
在向量空间模型中,特征词对标识文档资源所起到的作用并不相同。因此,必须针对它们对资源项目所起到的不同作用赋予不同的权重。赋权方式有布尔权重、TF-IDF权重以及基于熵概念的权重。其中,应用最广泛的是TF-IDF权重,它由Salton在1988年提出,将TF和IDF参数用于特征词权重的计算,用它们来刻画特征词表达资源内容属性的能力[17]。
TF(Term Frequency)是词频,或称为特征词频率。不同的文档资源,特征词的出现频率有较大差异,因此特征词频率是标识文档资源内容的重要参数。一般来说,TF较大的特征词在该文档资源中具有较高的权重,也就是说如果某个特征词在文档资源中经常出现,那么表明这个特征词对该文档具有代表性。TF越大,表示这个特征词对文档资源越重要。在最初的文本自动分类中,文档向量就是用TF来构造的。但是,只有TF不足以表明一个特征词对文档资源的重要程度,文档资源中大量出现的停用词(Stop Words)会干扰特征词权重的计算,比如文档资源中出现的代词、介词、连词等高频词,它们在所有文档资源中出现的频率都比较高,但对标识文档资源的贡献度却很小。为了处理停用词,有的系统采用了停用词过滤办法。这样做需要依赖于一个专家构造的停用词词典。不过停用词的界定本身就是一个主观性很强的判断,而且词典在扩充和修改上都需要一定程度的人为干预,因此为了削减几乎存在于所有文档中的高频词的影响,比较合理的办法就是使用反文档频率(Inverse Document Frequency,IDF)。
DF是文档频率(Documem Frequency),就是文档资源集中出现某个特征词的文档数量;IDF越大,此特征词在文档资源集中的分布越集中,说明特征词在区分该文档内容属性方面的能力越强。因此,IDF(Inverse Docment Frequency)是特征词在文档资源集分布情况的量化。IDF应用时经常采用对数形式,其计算方法为:
其中,N为文档资源中的总文档数,nk则为出现特征词tk的文档资源数量。
IDF算法的核心思想是,在大多数文档资源中出现的特征词不如只在小部分文档资源中出现的特征词重要。也就是说,如果一个特征词虽然在某个文档资源中出现,但同时它也出现在很多文档资源中,则降低了这个特征词在该文档资源中的重要性。因此,IDF算法能够弱化一些在大多数文档资源中都出现的高频特征词的重要度,同时增强一些在小部分文档资源中出现的低频特征词的重要度。(www.xing528.com)
从以上分析可以看出,特征词权重计算唯一的准则就是要最大限度地区分不同文档资源。因此特征词频率TF与反文档频率IDF通常是联合使用的,也就是TF-IDF权重。TF-IDF的计算公式如(3-8)所示:
其中,W(tk,dj)为特征词tk在文档资源dj中的权重,而TF(tk,dj)为特征词tk在文档资源TF(tk,dj)中的词频;N为文档资源中的总文档数,nk则为出现特征词tk的文档资源数量。另外,TF(tk,dj)可用公式(3-8)进行计算,freqk,j表示特征词tk在文档资源dj中出现的频率次数,max k freqk,j则为dj中出现频率最高的特征词的频率。
考虑到文档资源长度的不同对权重值的影响,还应对特征词权重公式做归一化处理(Normalization),即将各特征词权重规范到闭区间[0,1]之内[18]。因此,可以对公式(3-7)进行归一化处理,如公式(3-9)所示,其中为特征词的数量。
如前所述,系统将用户兴趣偏好表示基于特征词的用户兴趣向量,向量中的每一维元素由一个对应特征词的权重组成,权重值表示用户对该特征词的感兴趣程度。因此,目标用户Ui的兴趣可以表示为:Ui={w1,i,w2,i,…,wk,i,…,w/T/,i}。
当文档资源项目和目标用户分别表示为资源文档向量和用户兴趣向量后,通过余弦向量度量法可以计算两者的匹配程度,如公式(3-10)所述。
因此,基于向量空间模型匹配的信息推荐算法是将用户兴趣和文档资源分别表示为带权重的特征词向量,并通过计算两个向量的余弦相似来预测目标用户对目标资源项目的兴趣程度,从而进行信息推荐,即将相似度排名Top-N或大于设定阈值的信息资源推荐给目标用户。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。