首页 理论教育 信息检索策略:利用位置运算符提高查准率

信息检索策略:利用位置运算符提高查准率

时间:2023-08-02 理论教育 版权反馈
【摘要】:信息检索策略是为实现检索目标而制订的计划和方案,是对整个检索过程的谋划和指导,是对检索过程的安排。利用位置运算符可以对检索词进行加工、修饰,限制词与词之间位置关系,弥补布尔逻辑算符只能定性规定检索词范围的不足,可提高查准率。表示运算符两侧的检索词之间有一定的从属关系。如acid可检出含有acid、acidify、acidic等词的信息。

信息检索策略:利用位置运算符提高查准率

信息检索策略是为实现检索目标而制订的计划和方案,是对整个检索过程的谋划和指导,是对检索过程的安排。检索策略有两种方式:手工检索策略和计算机检索策略。在计算机检索的条件下,检索策略的构造应是在明确检索目标和信息需求的基础上进行的,包括选择检索数据库、确定检索项、选定检索范围和检索方法,运用逻辑运算符拟定检索表达式,按照一定的步骤实施检索,并根据需要进行反馈调整。

制定检索策略就是在确定检索主题的基础上,选择检索系统,确定检索途径和拟定检索程序,它包括手工检索策略和计算机检索策略的制定。

1.选择检索系统

选择的计算机检索系统要包含与信息需求结合紧密、学科专业对口、覆盖信息面广、报道及时、揭示信息内容准确、有一定深度的数据库,还要考虑系统的检索功能是否完善等。

选择检索系统的关键是数据库的选择,如书目文摘型数据库可检索文献信息的题名、作者、出处和文摘;事实型数据库可检索文字、图形、声像、计算机程序等(《中国法律法规大典》《中国雕塑史图录》《中国古典音乐大全》)。这就需要了解数据库所对应的版本形式如印刷版、光盘版、网络版等。

2.确定检索词

检索词是表达信息需求和检索课题内容的基本单元,也是与系统中有关数据库进行匹配运算的基本单元,检索词选择恰当与否,直接影响检索效果。检索词分为以下四类。

(1)表示主题的检索词

标题词:指经规范化处理的先组定组式的词汇。

单元词:指从信息内容中抽出的最基本的词汇。

叙词:指从信息的内容中抽出的能概括表达信息内容基本概念的名词或术语,它是经规范化处理的自然语言词汇。

关键词:指从信息单元的题目、正文或摘要中抽出的能表征信息主体内容的具有实质意义的词语,它是未经规范化处理的自然语言词汇。

(2)表示作者的检索词

如作者姓名、机构名。

(3)表示分类的检索词

分类号

(4)表示特殊意义的检索词

如ISBN、ISSN、引文标引词等。

检索词的选择与确定要遵循以下两个原则。第一,根据检索课题所涉及的学科专业和技术内容选词。第二,对检索词进行处理。如使用检索词表进行比较对照,则选用规范化的词汇作为检索词。

3.构造检索表达式

在计算机检索过程中,检索提问与存储标识之间的对比是由机器进行的,构造检索表达式的核心是构造一个既能表达检索课题需求,又能被计算机识别的检索表达式。

构造检索表达式前只有弄清所用数据库的检索功能和采用的操作运算符,才能有效地进行信息检索。如截词符,在Ei Compendex中用“∗”表示,在DIALOG、UMI中用“?”表示,在OCLC中用“+”表示。

检索表达式中用于连接各词的运算符按其功能不同可分为逻辑运算符、位置运算符、截词运算符和限制符等,不同的数据库会采用不同的符号或文字描述词与词之间的组配关系。

逻辑运算符:又称布尔逻辑运算符,利用布尔代数中的逻辑运算符来描述检索词之间的关系。常用的三种:逻辑“与”(“AND”或“∗”)、逻辑“或”(“OR”或“+”)、逻辑“非”(“NOT”或“-”)。

位置运算符:表示词与词之间位置关系的符号。利用位置运算符可以对检索词进行加工、修饰,限制词与词之间位置关系,弥补布尔逻辑算符只能定性规定检索词范围的不足,可提高查准率。常用的位置运算符有以下几种。W——With的缩写,表示运算符两侧的检索词按此前后衔接的顺序排列,词序不可变更,且两词之间不允许有其他的词或字母,但允许两词之间有空格或标点符号

n W——n Word的缩写,表示运算符两侧的检索词之间允许插入n个实词或系统禁用词,如冠词介词和连接词。

N——Near的缩写,表示运算符两侧的检索词必须紧密连接,词间只允许有空格或标点符号。同时出现在文献记录的同一字段中。

n N——表示运算符两侧的检索词之间允许插入n个实词或系统禁用词,两词词序可变。同时出现在文献记录的同一字段中。(www.xing528.com)

S——Subfield的缩写。表示运算符两侧的检索词必须同时出现在文献记录的同一字段、句子或短语中,允许插入n个实词或系统禁用词,词序可变。

F——Field的缩写。表示运算符两侧的检索词必须同时出现在文献记录的同一字段中,允许插入n个实词或系统禁用词,词序可变。

C——Citation的缩写。表示运算符两侧的检索词必须同时出现在一条文献的记录中,词间允许插入n个实词或系统禁用词,词序可变。

L——Link的缩写。表示运算符两侧的检索词之间有一定的从属关系。

截词符是指在检索词的合适位置进行截断。截词符的作用是对检索词进行截词处理,解决一个词的单数、复数问题,词干相同而词尾不同的问题和英美词汇拼写差异的问题。常用的截词符有“∗”“?”“$”。按截断的字符数量截断方式可分为有限截断和无限截断。

有限截断是指检索词串与被检索词只能在指定位置进行不一致的匹配,常用“?”表示。如acid可以匹配acid、acidic,但不能匹配acidity。

无限截断是指检索词串与被检索词实现部分一致的匹配。常用“∗”表示。其截断形式有左截断、中截断、右截断。

左截断是指检索词与被检索词的后部相同,即对同词干而前缀不同的概念进行检索,如∗magnetic可检出magnetic或paramagnetic的信息,但检不出mangenetics的信息。

右截断是指检索词与被检索词的前部相同而后缀不同的检索。如acid∗可检出含有acid、acidify、acidic等词的信息。

中截断是指检索词与被检索词只需任意部分匹配即可。如∗relation∗可检出relation、relations、interralation等词的信息。

限制符的作用是限制检索词或检索式在数据库记录中出现的字段位置。数据库中可供检索的字段通常分为基本检索字段和辅助检索字段。

基本检索字段主要有题名(TI)、文摘(AB)、主题词(DE)和标识词(ID),适用于各种数据库。

辅助检索字段主要有作者(AU)、语种(LA)、出版年代(PY)、刊物名称(JN)、文献类型(DT)等字段。这些限制符在不同的系统或数据库中有不同的表达形式和使用规则,使用时要参照有关数据库的使用说明,避免产生误检。

要注意:选择的检索标识只能表达信息需求的不同侧面,而不能反映需求的完整内容,只有用逻辑表达式将不同的检索标识组合在一起,才有可能表达完整的检索课题。“与”和“非”组合使用得越多,信息需求的表达得越深,切题性就比较高。

4.实施检索策略

(1)获取检索信息

手工检索策略的实施:主要将检索策略中信息需求所涉及的有关提问特征如主题词、分类号、作者姓名等与检索系统中的检索标识进行比较分析,然后筛选与信息需求相一致的检索结果。

计算机检索策略的实施:将构造好的检索提问表达式输入计算机检索系统,使用检索系统认可的检索指令进行逻辑匹配运算,并输出检索结果。

使用以上两种检索策略时,若检索结果内容较多,则还需要进行二次检索,以便进行缩检。

(2)索取原始信息

对检索结果进行归档整理,并按相关度进行排序,从而获取相关度最高、最有价值的原始信息。

5.修改检索策略

检索策略与检索表达式的建立、检索途径的选择、检索词的选用和检索词之间的逻辑关系有关,还与检索人员对语言学的了解、对事物的认知能力、专业知识水平有密切关系。另外,对检索系统的特性和功能的掌握程度以及外语水平都会影响课题检索的结果。检索策略的修改反映在检索前、检索过程中、检索后。

检索前要查询一次文献、词表和数据库指南。

检索过程中要充分利用“人-机对话”的有利条件,随时依据信息反馈情况调整检索策略。

检索后对检索结果进行分析与评价,建立文档,为今后的检索积累经验。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈