首页 理论教育 布尔检索实用教程的分析

布尔检索实用教程的分析

时间:2023-07-25 理论教育 版权反馈
【摘要】:例如,检索“不包括核能的能源”方面的信息,其检索词“Energy”、“Nuclear”采用“逻辑非”组配,即“Energy NOT Nuclear”,这就表示从“Energy” 检索出的记录中排除含有“Nuclear energy”的记录。例如,要检索关于欧洲能源问题的文献,如果采用Europe和Energy两个主题词,并据此构造“Europe AND Energy”这样的检索式,显然会出现相关文献的大量漏检。

布尔检索实用教程的分析

1.布尔检索的概念

布尔检索是以英国数学家和逻辑学家布尔(George Boole,1815~1864)命名的。这是利用布尔代数(或称逻辑代数)中的逻辑算符,即在信息检索中能够表达概念之间关系的一类运算符,通过检索词语或代码的逻辑组配,以进行检索的一种方法和技术。布尔检索是计算机信息检索中最基本的一种检索技术。

2.布尔算符的类型

(1)逻辑与:是一种具有概念交叉或概念限定关系的组配,用“*”或“AND” 等符号表示。例如,要检索“信息污染控制”方面的有关信息,它包含了“信息污染”和“控制”两个主要的独立概念。检索词“信息污染(Information Pollution)”、“控制(Control)”就可以用“逻辑与”进行组配,即用“information pollution AND control”来表示两个概念应同时包含在一条记录中。使用“逻辑与”组配技术,缩小了检索范围,增强了检索的专指性,能够提高查准率

(2)逻辑或:是一种具有概念并列关系的组配,用“+”或“OR”等来表示。例如,要检索“情报信息”方面的资料,检索词“情报”、“信息”可以用“intelligence”和“information”两个词来表达,采用“逻辑或”组配,即用“intelligence OR information”来表示这两个并列的同义概念同时出现在一条记录中。使用“逻辑或”检索,扩大了检索范围,能提高查全率

(3)逻辑非:是一种具有概念排除关系的组配,用“-”或“NOT”算符表示。例如,检索“不包括核能的能源”方面的信息,其检索词“Energy”、“Nuclear”采用“逻辑非”组配,即“Energy NOT Nuclear”,这就表示从“Energy” 检索出的记录中排除含有“Nuclear energy”的记录。使用“逻辑非”可排除不需要的概念,提高了查准率,但可能会影响查全率。

表4.2 布尔检索算符一览表

注:异或逻辑算符XOR原本属于数理逻辑,但鉴于其在信息检索中偶尔被使用,所以也被划归布尔逻辑运算中(也可写作EOR)。检索词A和检索词B用异或XOR组配,可写成A XOR B,或者A ⊕ B,表示检出含有检索词A或B的文献,但不包含同时含有A和B的文献。在著名的三大检索软件RECON、ORBIT和STAIRS中,仅有STAIRS软件支持XOR运算。

3.布尔检索的次序

在使用布尔检索之前,检索人员需要了解检索系统对检索次序的规定,避免逻辑运算次序处理不当而造成的错误检索结果。因为,对同一个布尔逻辑提问式,不同的运算次序会有不同的检索结果。(www.xing528.com)

通常情况下,布尔检索的执行顺序是:在有括号的情况下,括号内的逻辑运算先执行,括号有多层时,最内层的括号中的运算符优先执行;在无括号的情况下,按照检索系统规定的运算顺序执行。一般的检索系统都规定优先执行NOT和AND算符,而OR算符最后执行,这样可以增加检索的专指性。例如,检索式“(计算机OR自动化) AND办公室”表示命中文献中一定有两个检索词,即“计算机”和“自动化”两者之一或两者都有,另一个是“办公室”;而检索式“计算机OR自动化AND办公室”则表示命中的文献中含有“计算机”,或者同时含有“自动化”和“办公室”两个检索词。

4.布尔检索的评价

布尔检索简单、明确,易于理解和实现。1957年,希勒尔(Y. Bar-Hillel)最早讨论了布尔逻辑用于计算机信息检索的可能性。10年后,布尔检索技术正式被大型的目录型检索系统所采用,并逐渐成为商业性联机检索系统的标准检索模式。直到现在,许多大型的检索系统或搜索引擎都仍采用这一检索技术,如DIALOG系统,A lta Vista、Excite等搜索引擎。需要指出的是,Yahoo!只支持AND、OR两种运算;Lycos通过A ll the words和Any of the words等菜单方式来代表AND和OR运算。

布尔检索主要是基于二元判定标准(Binary Decision Criterion),即针对用户来说,一篇文档只有相关和不相关两种状态,缺乏文档分级(Rank)的概念,从而限制了检索的准确性,因此导致布尔检索存在一定的缺陷:

(1)布尔检索式的非友善性,即构造一个好的检索式是不容易的,尤其是对于一个复杂的检索课题,不易套用布尔检索模式。

(2)布尔逻辑式的构造不能全面深刻地反映用户的信息需求。用标引词T的简单组配不能完全反映用户的实际需求。用户需要哪方面内容的文本,需要到多大程度,这是布尔算式无法表达清楚的。例如,在检索式“Q i=t1 AND t2” 中,究竟用户是希望得到更多地反映t1内容的文本,还是希望得到更多反映t2内容的文本,传统的布尔检索无法予以清晰的说明和解决。

(3)匹配标准存在某些不合理的地方。例如,使用AND算符进行检索时,检索系统把只含有其中一个或数个但不是全部检索词的文本,与那些根本不含一个检索词的文本一视同仁,加以排除。另一方面,在使用OR算符进行检索时,检索系统也不能分辨出含有所有这些检索词的文本要比只含有其中一个检索词的文本要更好。

(4)检索结果不能按照用户定义的重要性排序输出。系统检索出的文本中,排在第一位的文本并不一定是文本集中用户最需要的文本,用户只有从头到尾全部浏览才能确切地知道哪个文本是自己最需要的。如果检索结果数量庞大,用户要做到这一点是非常困难的。

(5)布尔检索易造成零输出或输出过量,还常常出现漏检和误检现象。一般来说,当检索词表达的是一个整体概念时,就要针对具体情况分别列出每一个表达部分概念的检索词,否则就会出现漏检。例如,要检索关于欧洲能源问题的文献,如果采用Europe和Energy两个主题词,并据此构造“Europe AND Energy”这样的检索式,显然会出现相关文献的大量漏检。因为在地理上当我们提及欧洲时,它包括英国、法国、意大利、西班牙等具体国家,然而在这一检索式中,“Europe”是作为一个检索词,只代表一个整体而无法代表上述诸国。因此,在采用布尔检索技术时,就需要选择适当的逻辑算符,并全面掌握检索课题的相关因素。针对这一问题,较为合理的检索式应当是:“(Europe OR Britain OR France OR Italy OR Spain OR …) AND (Energy OR Coal OR Petroleum OR …)”。

还应注意的是,在检索逻辑中使用NOT,能够排除由NOT指定的文献,从而检索出更为准确的文献。但是,当两个关系紧密的检索词同在一个检索式中时,对其中的一个使用NOT逻辑就会排除同时包括这两个检索词的文献。例如,在检索式“(Computer AND Software) NOT Hardware”中,检索计算机软件方面的文献是检索的主要目的,但由于使用了NOT逻辑,将会把同时包含计算机软件和硬件的相关文献排除在外。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈