目前逻辑模型已广泛应用于人工智能领域,并借助其普遍性和推理能力在其他领域大显身手。逻辑检索模型的基本出发点是假设检索请求和文档都可以被逻辑表达式表示,整个检索过程基于某种推理模型,测试检索请求的表达式是否可以从文档表达式中推理得到。
Van Rijsbergen(英国格拉斯哥大学计算机系)指出,“文献(d)”与“检索(q)”之间的关系可以用逻辑式P(d→q)表示,其中,“→”是逻辑符号“蕴含”,这里P(a)可读成“a的可能性”。因此,对于这种以逻辑表达式来描绘信息检索的形式来说,关键词的问题就是如何选择合适的蕴含关系,使之能最佳地反映出d与q两者之间的相关性以及可能影响这两者关系的各种因素。
根据文章开头有关模型建构的讨论,在最初建构P(d→q)这样一个信息检索的逻辑模型时,许多反映文献与需求之间关系的因素将简约地被表达,他们将逐步地被逻辑推理出来。
1.信息检索的古典逻辑模型
在古典模型中,文档和检索请求被表示成逻辑表达式,逻辑结论符号被用来测定相关程度。例如,一个文档d和检索请求q有关,如果d⊨q,其中“⊨”表示逻辑蕴含。然而,古典逻辑模型还不足以完整应用于文献检索过程,其原因主要有:
(1)对信息的重要性程度表达不足。一般来说,一篇文献中总有某一部分的信息较之其余部分更重要些。例如,某个词汇TF-IDT值较高,意味着这个短语对于该文档是重要词汇。然而,在信息检索的古典逻辑模型中,信息的重要程度这一特征并不能很成功地被表达出来。(www.xing528.com)
(2)真值蕴涵不足以表达检索请求和文档间的相关程度。在古典逻辑中,“φ→ψ”这样的逻辑关系称之为真值蕴涵,而不能被理解成实质蕴涵,它只是以命题的真假为实质,从真假这个角度描述了“若……,则……”这一假言命题的前件与后件之间的逻辑关系,而与我们日常语言中的“若……,则……”的含义不完全一致。两者的主要区别在于:日常语言中的推理关系往往要求前件与后件之间有更多的意义或事实方面的联系(即实质蕴涵),而真值蕴涵却并不如此要求,它仅着眼于前后件之间在真假方面的逻辑关系。例如“1+1=2→牛是动物”显然是真值蕴涵,在逻辑上成立,但两者之间并无必然的联系。因此,基于真值蕴涵的信息检索,古典逻辑模型自然也不能完全表述出文献d与信息需求q之间的真实联系。
(3)不能处理检索词的不确定性。如常见的一词多义。古典逻辑模型无法根据上下文确定检索词的具体语义。此外,有一些同义词,因为表达式差异较大,系统一样无法判定两者同义。
由于查询是依靠推理来获得相关性的文献,因此推理过程越是不确定,获得的相关性文献就越少,而这样的现象在传统的逻辑检索模型中屡有发生。于是,人们发展了许多非古典逻辑理论,来构建信息检索的逻辑性。
2.信息检索的非古典逻辑逻辑模型
Van Rijsbergen将所有试图描述推理不确定性的逻辑方法写作d→q。然后给出了逻辑不确定性原理:已知两个表述x和y,y→x不确定性取决于我们需要加入此数据系统的最小信息限度。目前,很多研究人员都在努力提出各种模型来估计不确定性,以此来发展信息检索的逻辑模型:目标就是确定合适的逻辑和不确定性原理,然后确定一种方法使它们完美结合,以达到对相关性的量化表示。这些模型大致有:基于可能世界的模态逻辑的信息检索模型,其代表人物如Nie(蒙特利尔大学)、Chevallet(法国格勒诺勃大学)等;基于映像(Imaging)的信息检索模型,其代表人物如Harper(剑桥大学计算机系)、Crestani(瑞士提挈诺大学)、Van Rijsbergen等;基于近似原理(Piausible Reasoning)的信息检索模型,其代表人物如Bruza(澳大利亚昆士兰科技大学)等,以及Bruza、Huibers(荷兰特文特大学)的信息检索的元素模型(Meta-Models)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。