首页 理论教育 网络信息检索技术的优化方法

网络信息检索技术的优化方法

时间:2023-07-08 理论教育 版权反馈
【摘要】:网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、限定位置检索、限定字段检索等。1)布尔逻辑检索布尔逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。3)限定位置检索位置检索也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。

网络信息检索技术的优化方法

网络信息检索中,基本的检索技术有布尔逻辑检索、截词检索、限定位置检索、限定字段检索等。

1)布尔逻辑检索

布尔逻辑检索是一种开发较早、比较成熟、在信息检索系统中广泛应用的技术。布尔逻辑检索就是采用布尔关系运算符来表达检索词与检索词之间逻辑关系的检索方法,目前最常用的布尔逻辑运算符主要包括逻辑“与”(AND)、逻辑“或”(OR)、逻辑“非”(NOT)。

(1)逻辑“与”。逻辑“与”,也称为逻辑乘,用AND表示,是用来组配不同含义检索词之间的限定关系。检索词A、B以AND(或“*”)相连,即A AND B(或A*B),表示同时包含A、B两词的文献才是命中记录,因而逻辑“与”运算用于对检索词进行限定,从而缩小检索范围,提高检索结果的查准率

例如,要查找shipping safety(航运安全)方面的文献,中文检索逻辑式表示为“航运AND安全”或“航运*安全”,英文检索逻辑式可表示为“shipping AND safety”或者“shipping*safety”(此处忽略关键词的同义词、近义词等)。运算的结果是同时含有检索词shipping和检索词safety的文献才被检索出来。一般情况下,在搜索引擎中,一般默认使用空格代替“AND”。

(2)逻辑“或”。逻辑“或”,也称为逻辑加,用OR或者“+”表示,是用来组配同义或者同族检索词之间的并列关系。检索词A、B若以OR或“+”相连,即A OR B或A+B,表示只要含有A、B之一或者同时包含A、B的文献都是命中记录。因而逻辑“或”运算可用于扩大检索范围。

例如,要查找“船舶”方面的文献,因为船舶在英语中可以用ship或vessel表示,所以为了将有关船舶的文献全部检出,避免漏检,检索逻辑式就可表示为“ship OR vessel”或者“ship+vessel”。运算的结果是含有ship或者vessel任意一个或者同时包含两个单词的文献均被检索出来。

(3)逻辑“非”。逻辑“非”用NOT或者“-”来表示,是用来组配概念的包含关系,可以从原检索范围中排除一部分,因而使用逻辑“非”运算可以缩小检索范围。检索词A、B若以NOT(或“-”)相连,即A NOT B(或A-B),表示只含有检索词A而不含有B的文献才是命中记录。逻辑“非”可用于缩小检索范围,但是不一定能提高文献命中的准确率。在使用时要注意,避免将相关的有用文献排除在外。

例如,要查找有关“energy(能源)”,但又不涉及“nuclear(核能)”方面的文献,检索逻辑式可表示为“energy NOT nuclear”“energy-nuclear”。运算的结果是含有energy,但不包括nuclear的文献将被检索出来。

上面三种检索逻辑式是最为简单的布尔逻辑运算。在检索实践中,可以根据实际需要,组合使用多个布尔运算符,以准确表达检索主题。

布尔逻辑检索与人们的思维习惯一致,表达清晰,方便用户进行扩检和缩检,而且易于计算机实现,因此,在计算机信息检索系统中得到广泛应用。但是它无法反映检索词对于检索的重要性,无法反映概念之间内在的语义联系。

使用布尔逻辑运算符的注意事项:三种布尔逻辑检索运算符之间的运算顺序为NOT、AND、OR;有括号时,先执行括号内的逻辑运算。如A AND(B OR C)则表示先检索含有B或者C的文献,再在检索结果中查找包含A的文献。

2)截词检索

截词检索主要用于英文检索,是指在检索式中使用专门的符号(截词符号)表示检索词的某一部分允许有一定的词形变化,用检索词的词干或不完整的词形查找信息的一种检索方法。并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。在实际检索的过程中,为了减少检索词的输入量,同时又扩大检索范围,保证查全率,可以使用截词检索。

截词的方式有多种。按截断的位置来分,可分为后截断、中截断和前截断;按截断的字符数量来分,可分为有限截断和无限截断。有限截断是指说明具体截去字符的数量,通常用“?”表示;而无限截断是指不说明具体截去字符的数量,通常用“*”表示。

(1)后截断。后截断是最常用的截词检索技术,是将截词符号放置在一个字符串右方,以表示其右的有限或无限个字符将不影响该字符串的检索,是一种前方一致的检索。这种方法可以省略输入各种词尾有变化的检索词的麻烦,有助于提高查全率。

例如,输入“inform*”,则前6个字符为inform的所有词均满足条件,因而能检索出含有informant、informal、information、informative、informed、informer等词的文献。而输入“inform??”,则可检索出含有inform、informal、informed、informer的文献(有限截词符“??”表示允许不超过2个字符)。

(2)中截断。中截断是把截断符号放置在一个检索词的中间。一般地,中截断只允许有限截断。中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。

例如,输入“c?t”可以检索出含有词cat、cut的文献;输入“mod?????ation”可以检索出含有词moderation、modernization、modification的文献。

(3)前截断。前截断是将截词符号放置在一个字符串左方,以表示其左方的有限或无限个字符不影响该字符串检索,是一种后方一致的检索。这种检索方法在各种词头有变化的复合词的检索中应用比较多,有助于提高查全率。

例如,输入“*magnetic”可以检索出含magnetic、electro-magnetic等关键词的文献。

利用截词检索技术可以减少检索词的输入量,简化检索,扩大检索范围,提高查全率。但是,个别检索工具可能会采用不同的截词规则,需要在具体应用中加以注意。

3)限定位置检索

位置检索也称临近检索,主要是通过位置运算符来规定和限制检索词之间的相对位置或者检索词在记录中的特定位置来实施检索的技术。

(1)NEAR/x(N/x)。使用NEAR/x可查找由该运算符连接的检索词之间相隔指定数量的单词的信息记录。用数字取代x则可指定将检索词间隔的最大单词数。

如果只使用NEAR而不使用/x,在Web of Science平台数据库,则系统将查找其中的检索词由NEAR连接且彼此相隔不到15个单词的记录;在Proquest Dialog检索数据库中,则默认查找前后关键词相隔不超过4个单词的记录。例如,在Web of Science平台数据库中以下检索式效果相同:

shipping NEAR risk;(www.xing528.com)

shipping NEAR/15risk。

一般情况下,在包括NEAR运算符的检索式中不能同时使用AND运算符。例如,以下检索式是无效的:

TS=(Germany NEAR/10(monetary AND union))。此处的“TS”表示“主题”字段(下同)。

然而,NEAR运算符可用于在某条短语的X数量单词中查找具体的单词或短语。如下的检索式是有效的:

TS=(Germany NEAR/10"monetary union");

TS=(Germany NEAR/10(monetary NEAR/0union))。NEAR/0表示该运算符连接的单词应彼此相邻。

如果目标信息(如期刊、书籍、会议录文献或其他类型的著作)的标题中包含单词NEAR,检索时请使用引号("")。例如,以下检索式是有效的:Atomistic simulations of a solid/liquid interface:a combined force field and first principles approach to the structure and dynamics of acetonitrile"near"an anatase。如果未使用引号,系统会返回如下错误消息:“检索错误:NEAR运算符使用无效”。

(2)PRE/n(P/n)。PRE(P)表示在此运算符两侧的检索词之间除可以有一个空格、一个标点符号或一个连接号外,不得夹有任何其他单词或字母,且词序不能颠倒。PRE/n(P/n)算符的含义是允许在连接的两个词之间最多间隔n个单词。

(multipurpose or multi p/1purpose)p/5(ship or vessel)表示检索多用途船的相关文献,multi p/1purpose可以检索出“multi purpose”和“multi-purpose”关键词,“多用途”与“船”概念之间允许最多有5个其他单词,以求更全面的信息检索,防止漏检。

连字符“-”可连接检索中的两个词语,等同于PRE/0或P/0。以下检索式效果相同:multi p/1purpose;

multi-purpose。

(3)SAME。SAME运算符表示将检索限制在一句话中,检索词前后位置不限。当在其他字段(如“主题”和“标题”)中使用时,如果检索词出现在同一记录中,SAME与AND的作用就完全相同。因此,在Web of Science平台中多用于“地址”字段检索。

例如:

AD=(McGill Univ SAME Quebec SAME Canada)查找在“全记录”的“地址”字段中出现McGill University以及Quebec和Canada的记录。

AD=(Portland SAME Oregon)查找在记录“地址”字段中存在Portland、Oregon的记录。

TS=(ship SAME robot)与TS=(ship AND robot)检索将得到相同的结果。

4)限定字段检索

为便于检索,信息记录一般经过加工、标引,分为由若干个字段组成的基本单元。限定字段检索是把检索词限定在某一记录的特定字段中的检索方法,能大大提高检索准确度和检索效率。需要注意的是,不同的检索工具中使用的字段代码有所不同。常用的检索字段见表2-1。

表2-1 常用的检索字段代码及名称

例如:

AU=smith将仅获取smith出现在作者字段的记录。同样,AU=smith and TI=shipping仅获取标题字段含有shipping,作者字段含有smith的记录。

OO=shanghai maritime univ AND PY=2018表示检索上海海事大学科研人员于2018年发表的论文情况。

在Proquest Dialog平台数据库中,使用半角逗号(“,”)分隔代码可一次检索多个字段。

例如:

AB,TI(shipping)表示检索标题或摘要字段中含有shipping的记录。

AB,TI(shipping-risk)表示检索摘要字段或标题字段中含有“shipping-risk”词组的记录。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈