数学上讲,概率检索模型可以视为空间向量模型的扩充。它将文献向量与查询向量间的相似程度概率化,主要研究表示文献的随机向量在相关文献集和无关文献集的概率分布。特别是在对相关性无知或知之不多的情况下,应用这种理论可以通过接受和汇集所有反应每篇文献相关性的数据,来确定表示文献随机向量的概率分布和数字特征,以便得到每篇文献(对某一用户)相关的概率。
概率模型基于以下基本假设:给定一个查询请求q和集合中的文档dj,估计查询请求与文档dj相关的概率,而这种概率只依赖于查询请求和文档。更进一步说,该模型假定在文档集合中存在一个子集,即相对于查询请求q的结果文档子集,这种理想的集合用R表示,集合中的文档是被预料与查询串相关的。
1.索顿的概率模型
在《数学与信息检索》,Salton基于独立性假设介绍了他的检索系统模型。
设在有N个记录的文献库中,与提问相关的记录为R个,无关的记录为N-R个。文献用向量表示X=(X1,X2…Xn)。其中X1=1时,X包含第i个主题词。这种模型所依赖的独立性假设与客观事实有一定的差距,因而其结果还不能令人满意。
2.概率检索的数学模型
在BIR(Binary Information Retrieval)模型中,某个检索请求q是全部索引词的子集,R是相关文档集合,R′是不相关文档集合,则P(R|dj,q)表示文档dj和查询q相关概率。文档dj与查询q相关度值为:
O(dj,q)=P(R|dj,q)/P(R′|dj,q)
根据贝叶斯公式,O(dj,q)=P(dj|R,q)P(R|q)P(dj|q)/P(dj|R′,q)P(R′|q)P(dj|q)
通过最终推导:。其中pik,qik分别为标引词ti出现在相关/非相关文献中的概率,进一步令
可得最终索引方程Q(dj,q)=∑cik。通过计算pik,qik的值,即可给出最终索引相关程度的数值。
3.文献向量的加权(www.xing528.com)
严格来说,概率模型不能独立应用于检索模型中,甚至也不能作为检索系统的基础模型,它最大的作用是在检索系统的代数模型中作为文献向量的一种加权手段,用来改善代数模型的性能。所以检索系统的概率模型说得更准确一些,应该叫做检索系统的向量—概率模型。
文献向量的加权有几种方法:
(1)二元标引
在文献向量D=(d1,d2,…,dn),令
di=0,当文献不用第i个主题词标引
Di=1,当文献用第i个主题词标引
这种方法简单明了,缺点是不能区分每个标引词的重要程度。
(2)高级加权
这种加权办法的好处是它反映出了每个主题在文献中的分量,从而能够判断相关文献对提问的符合程度并对相关文献进行排队。如IT-IDF方法。由于这种高级加权方法需要统计每个主题词在文献中出现的频率,因此大大增加了标引的工作量,同时检索计算量也有所增加,使检查速度放慢。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。