信息检索策略是针对用户信息需求,运用一定的检索技术和方法而设计的信息检索方案,是影响检索效果的关键因素。实践表明,一个好的信息检索策略不仅可以优化检索过程,以便从整体上节省检索时间和检索经费,而且还可以获得较高的查全率和查准率,取得最佳的检索效果。
1.计算机信息检索策略的含义
目前人们提及信息检索策略往往是指检索提问式的构造,即运用系统特定的检索技术确定检索词之间的逻辑关系,形成表达用户信息需求的检索提问式,这是我们所说的狭义上的检索策略的含义。
广义上的检索策略是指在分析检索课题的实质内容、明确检索目标的基础上,选择检索工具,确定检索途径与检索用词,以及检索词之间逻辑关系与查找步骤最佳方案的一系列科学安排。因此,完整的检索策略的构造过程应该包括四步:分析用户信息需求,选择检索工具,确定检索词和构造检索提问式,以及实施检索策略、输出检索结果。
检索策略的构造涉及多方面的知识和技术,检索者需要了解检索系统的特性和功能,熟悉系统数据库的记录结构、特定的文献标引规则、检索方法与技术等,能够随机不断地调整检索策略,从而制订一个科学合理的检索策略。
2.计算机信息检索策略的构造及其实现
通常计算机信息检索策略的构造可按下面步骤进行。
(1)分析用户信息需求,明确检索目的。
用户的信息需求是信息检索的出发点,也是检索策略制订的依据。只有仔细分析用户的信息需求,了解用户检索目的与意图,才能确定检索的角度、深度和广度,选择适当的检索工具,确定检索途径,制订最佳检索策略。
用户的信息需求可谓多种多样、千变万化,有时甚至同样地提问,其检索目的也会不同,有的“求全”,有的“求准”,有的“求新”,有的需要原文,有的只需要一般性信息。因此,不同的检索目的,其检索策略与检索步骤的安排也会截然不同。
(2)选择检索工具,确定检索途径。
根据用户检索目的和具体要求,选择最恰当的检索工具,是保证检索效率的重要环节之一。因为检索工具类型多种多样,而各种检索工具都有自己的特色,在收录文献信息的学科主题范围、时间范围、文献信息的类型、语种等方面均各有侧重。同时,各种检索工具之间又存在着严重的重复交叉现象,对某一课题的检索,可供选择的检索工具不止一种。因此,检索人员需要确定采用何种检索工具,以哪种检索工具为重点来检索。
对于联机信息检索和光盘检索而言,选择检索工具就是选择数据库。联机检索系统和光盘检索系统都是由一些数据库组成,这要求用户在检索前必须了解检索系统所含数据库的主题范围、文献类型、结构,以及检索途径等,从而确认是否与自己检索课题有关。联机检索系统的数据库数量一般较大,内容广泛,所以选择起来有一些困难。光盘检索系统收录范围小,数据库数量少,因而选择的难度较小。对于网络信息检索工具的选择要尽可能从收录范围、标引的深度与准确度、数据更新的频率、检索机制、检索速度、界面友好程度等多方面综合评价。例如,查公司和个人信息可以用Internet Yellow Page、Whois等;查用户组可以用DeiaNews等;查FTP资源可以用Archie;查WWW资源可以用搜索引擎和网络资源指南等检索工具。
选择好检索工具后,就要根据检索工具提供的检索入口,选择最佳检索途径。例如查找法律资料,可以从法规颁布的时间、法规的主题、法规颁布的机构等多方入手,这就要求检索人员根据已掌握的信息选择最佳、最便捷的检索途径。(www.xing528.com)
(3)选择检索词,构造检索式。
①选择检索词。选择好检索工具、确定检索途径后,就要依据检索工具的特定检索用词规则,将用户的检索课题用一些具有检索意义的主题概念表示出来,形成检索词。检索词是表达用户文献信息需求的检索提问式的基本元素,也是计算机信息系统中有关数据库据以进行匹配运算的基本单元。检索词的选择恰当与否会直接影响检索效果。在计算机信息检索系统中,检索词除了表示文献信息形式的题名、著者、出处等外部特征标识之外,基于文献信息内容的检索词有受控词汇和自然词汇两种形式。
a.受控词汇。受控词汇是经过规范化处理的词或者词组,即主题词,主要指叙词、标题词以及各种人工代码,如分类代码、国家或地区代码、产品代码、化学物质代码等。受控词汇是从待检数据库的叙词表或者主题词表中选取的。在使用词表的计算机检索系统中,词表是数据库标引和检索共同遵循使用的检索语言。为了使检索提问标识和文献特征标识相一致,获得最佳检索效果,应该优先使用受控词汇。
b.自然词汇。自然词汇是指未经规范化处理的词或者词组,包括关键词和自由词,直接取自文献信息本身。关键词是文献篇名、摘要、正文中出现的具有实质意义的表达文献主题内容的词。自由词是指在检索时估计文献中可能出现、具有检索意义,未被词表收录的词,可以实现全文信息查找。使用自然词汇检索时,字面匹配则表示命中。自然词汇往往一词多义,很容易产生误检,因此,在检索时要尽量做到概念匹配。
选择检索词一般要从以下几个方面进行考虑:第一,对检索课题进行科学正确的主题分析,将课题内容分解或综合成某些概念,选择核心概念,发掘隐含概念,排除非核心与宽泛概念,力求这些概念能反映用户信息需求和检索主题内容。第二,在确定检索用词时,检索词的数量和专指度要合适,主次分明。一般遵循优先使用规范词,其次选用关键词,然后再根据实际情况恰当使用自由词的原则。目前联机检索系统和光盘检索系统一般要求使用系统特定的词表,而绝大多数的网络信息检索工具都支持自然语词的检索。第三,可以随时视检索需要,调整选择检索词,灵活使用多义词、同义词、近义词等。如果想扩大检索范围,选择检索词时要尽量选择上位概念或者词组;如果想缩小检索范围,则选择专指性强、特定概念或者专业术语,避免普通词和太泛指的词。
②构造与优化检索提问式。在选择好检索词后,检索人员就需要采用上一节提到的计算机信息检索的技术,构造检索提问式。检索提问式是计算机信息检索系统用来表达用户检索要求的逻辑表达式,由检索用词和各种布尔逻辑运算符、位置运算符、截词运算符以及系统规定的其他连接组配符组成。从某种意义上讲,检索提问式是检索策略的具体体现,是检索策略构造中的关键环节。目前,联机信息检索和光盘信息检索比较注重检索提问表达式的构造与优化,网络信息检索比较简单,多采用浏览和关键词检索,所以对检索提问式的构造要求并不突出。但毫无疑问的是,一个准确合理的检索提问式可以极大地提高检索的质量和速度。
在构造检索提问式的过程中,我们要注意以下两点。
a.灵活运用各种运算符号。为了达到理想的检索结果,可以同时使用多种运算符,以准确表达检索需求的内容。例如,为了扩大检索范围,可以增加利用截词符、布尔逻辑运算符OR、模糊检索等;如果想缩小检索范围,可增加使用AND、NOT运算符,使用字段检索限定查找范围;使用精确检索技术的双引号,来提高检索的精确度;使用各种位置运算符限定检索词之间的位置关系,从而提高检索的准确性和灵活性。
b.准确构造检索提问式。熟悉检索系统的索引体系、检索用词规则和运算符的含义,仔细分析检索词之间的逻辑关系,分期分步制订检索表达式,不断修改检索提问式,以期获取最佳、最合理的检索提问式,完整而准确地反映出用户提问的主题内容。
(4)实施并修改检索策略,输出检索结果。
将编制好的检索提问式输入检索系统,计算机进行匹配运算后输出检索结果。在信息检索过程中,用户需求的随机性、对用户信息需求分析和表达的主观性,以及检索提问式的构造不完善等,制订检索策略的过程中必然会存在一些产生检索失误的潜在根源,所以为了实现检索目的,需要修改优化检索策略,如“扩检”用来提高查全率,“缩检”用来提高查准率,输出用户真正需求的检索结果。检索结果如何输出也属于检索策略范畴,因为一些检索系统允许对检索结果的输出进行定制,可以进一步限定输出的内容和格式,选择检索结果的输出排序方式。如OCLC就允许将检索结果按照本馆年订购项目、著者、年等来限制输出,提供了时间和相关度两种排序方式。选择适当的结果输出方式有利于用户以最快捷的方式获取所需的相关性最高的文献信息。按照时间顺序排列,便于直接获取最新文献信息;按照相关度排列,便于直接获取最有用的文献信息。因此,依据用户信息需求和检索目的,优化检索策略、定制检索结果的输出会极大地提高检索效果。计算机信息检索策略的构造其实现过程如图4-1所示。
图4-1 信息检索策略构造
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。