虽然前面介绍的几种检索模型各有特点,但仍然有许多缺陷:(1)基于二值逻辑乃至多逻辑基础的检索系统存在大量模糊因素;(2)用户表达需求提问的不确切性在所难免;(3)检索表达式中各标引词语显示的重要程度与用户需求的重要程度之间存在差异性;(4)检索逻辑用语中可能出现误差;等等。这说明,信息检索中的相关性与不相关性不是绝对的,有时甚至是相关与不相关之间也没有明确的界限。这就为模糊理论介入检索系统提供了基础。
1.基本概念
在经典集合理论中,一个元素要么属于某集合,要么不属于某集合。这种划分方法难以解释现实世界大量存在的模糊现象。针对这种问题,Zadeh(伯克利大学数学家计算机学家)于20世纪60年代提出了“模糊集合”(Fuzzy Set)概念。基于这种方法所构建的检索模型成为模糊检索模型。
模糊集合是指其中元素具有一定程度隶属性的一种集合,即元素的隶属性可以从完全属于(1)到完全不属于(0)逐渐变化,不同于传统布尔模型非0即1。设A为论域U的一个模糊子集(Fuzzy Subset),定义μA:U→[0,1]为隶属度函数,其定义了U中元素属于A的程度。
任取λ∈[0,1],定义A的截集(Cut Set)Aλ={u∈U|A(u)≥λ}。λ称为置信水平。
两个模糊子集的交、并计算,在Zadeh定义下为:
μA∪B=max{μA,μB}
μA∩B=min{μA,μB}
Zadeh算子满足结合律、交换律和分配率。
因为在模糊检索模型中隶属这一概念被渐变化,所以不同于概率模型计算给出属于或不属于的概率大小,模糊模型一开始就认为元素介于属于和不属于之间,因此对每个检索请求每个文档也将介于完全符合(1)和完全不符合(0)之间。
在模糊模型中,文档中的检索词构成了一个模糊集:
Fd={μFd(w)/w|d∈D and w∈W}
同样,检索请求也构成一个模糊集:
Fq={μFd(w)/w|w∈W}
通过设置λ值,用户可以调整检索的灵活度。而文档和检索请求吻合度也可以使用某种适应函数计算:(www.xing528.com)
2.模型评价
(1)模糊检索模型是传统布尔模型的扩展,克服了后者不够灵活的缺点。后者可以看作是前者的极端情况。
(2)对每篇被考察的文献,本模型将产生一个相对某个查询而言的隶属函数值。这个数值在一定程度上反映了文献对查询的相关度。根据这个值的大小决定是否输出文献和以怎样的顺序输出。用户在对输出集进行相关性的判断时,利用这个值做出是否终止判断的决策。可以说本模型在一定程度上反映了“相关”概念的模糊性。定义的各种算子都是以max和min算子来处理,算法简单,因此这个模型实施起来很容易。
(3)本模型是一个顺序检索模型。顺序检索模型慢。为此,可把“与”“或”“非”等逻辑算子换成“并”“交”“差”等集合运算符,并将词库中的词,定义为文献库的一个模糊子集。这样,词与词之间的“模糊真值表”(相对“布尔真值表”而言)的运算便转换为模糊子集之间的交差运算。
总之,本模糊模型在描述信息检索的现象、特性和过程方面比常规的布尔检索模型更优越。
3.模糊理论在信息检索中应用现状的表现
综上所述,模糊检索对用户查询的检索结果是一个建立在文献集上,且其隶属函数就是信息文献对用户查询的相关程度的模糊子集。限于目前的理论进展,隶属函数在某些时候并无法完全反映隶属关系。其主要原因有:
(1)同前面的模型一样,模糊检索模型也假定了标引词集中各个标引词之间是相互独立的,这符合模糊理论的要求,但由于概念相关的模糊性,两个标引词在不同程度上总存在着语义上所谓关联。另外,上述模糊子集的隶属函数虽然反映了信息文献对标引词的论述深度,但还没有十分有效的方法精确地确定这个隶属函数。因此,目前只能通过一些半经验方法予以估计。
(2)模糊算子同样面临过于简单而无法处理一些复杂情况的问题。目前有些学者提出广义模糊算子试图克服这种问题,相关研究仍在进行中。
模糊理论应用于信息检索仍然处于理论探讨阶段,进一步研究的主要课题有:
(1)加强对模糊理论中关于隶属度与概率中的概率的某种相似性研究。尽管“隶属度”的概念远没达到“概率”概念的严格程度,但前者却是后者的理论基础。
(2)将模糊理论进一步引申到解释检索语言中各元素之间存在的语义相关、概念相关问题,以及语言组织结构方面。
(3)关于模糊逻辑电路的多值逻辑集成技术的进一步拓展等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。