首页 理论教育 截词检索方法的分析介绍

截词检索方法的分析介绍

时间:2023-07-25 理论教育 版权反馈
【摘要】:可以代表90年代;同根词,如“biolog*”可检索出biological、biologist、biology等同根词;作者,如用“Lancaster*”可检索出所有姓Lancaster的作者。下面以DIALOG系统为例加以说明:有限截断:在检索词干后加一个?表示截断两个词,可检索出含有acid、acidic和acids等记录。表示截断0~3个字符,可检出带有study、studies、studied等词汇的文献。表4.4截词检索的效果表4.5截词检索的效果

截词检索方法的分析介绍

1.截词检索的概念

截词检索是指利用检索词的词干或不完整词形进行信息查找的一种检索技巧,或称截断检索、词干检索或部分一致检索。由于截词检索实际上是使用通配符或截词符来进行的,所以有人将其归入模糊检索的范畴。狭义的截词检索对象为单词、词组,广义的截词检索对象已经发展到文献题名、文摘,甚至全文。

截词检索的具体做法是:对检索式中的检索词附加一个截词符,指出该检索词与文献库中的标引词进行比较时,是作为一个完整词还是作为检索词的一部分。通常的截词符为*、?或$,但各个检索系统有不同的规定,如DIALOG系统用?,ORBIT系统用#,而BRS系统则用$;许多检索系统也多采用窗口下拉菜单选项的方式来实现截词检索。通常,下拉菜单中的模糊检索选项就是各种截词检索技术的实际应用。

2.截词检索的类型

首先,根据截词符所处的截断部位,截词检索可以细分为4种方式:

(1)前截断:将截词符号置放在一个字符串的左方,表示其左面的有限或无限个字符不影响该字符串的检索。从检索性质上讲,前截断是后方一致检索。前截断可用于一个学科的不同应用领域的信息检索,对汉语中的复合词组的检索非常方便。

(2)中截断:或称“通用字符法”、“内嵌字符截断”(Embedded Character Truncation)。这种截断是把截断符号放在一个检索词的中间,表示这个位置的有限个字符的异同不影响该字符串的检索。从检索性质上讲,它是前后方一致的检索。英语中有些单词的拼写方式有英、美之分,有些词在某个元音位置出现单复数的不同,用这种方式检索就比较简便,并可以保证较高的查全率

(3)后截断:将截词符号置放在一个字符串的右方,表示其右面的有限或无限个字符不影响该字符串的检索,这种方式称为后截断。从检索性质上讲,后截断是前方一致检索,这种检索技术的使用场合是:西方语言的单复数,如book?、gear?;年代,如“199?”可以代表90年代;同根词,如“biolog*”可检索出biological、biologist、biology等同根词;作者,如用“Lancaster*”可检索出所有姓Lancaster的作者。在截词检索中,后截断是最常用的一种检索技术,一般的检索系统都提供有此项功能。

(4)前后截断:将截词符号置于一个字符串的前方和后方,从而使所检信息的范围更广。例如,“?考试?”可以检索出“英语考试”、“考试试题”、“计算机等级考试指南”等。

表4.3 截词检索的部位及其检索结果(www.xing528.com)

其次,根据截断的字符数量,把截词检索分为以下有限截断和无限截断两种。下面以DIALOG系统为例加以说明:

(1)有限截断(LiMITed Truncation):在检索词干后加一个?,表示该词后带任意字母的词汇都可以检索出来。

(2)无限截断(UnliMITed Truncation):在检索词干后加上“? ?”(中间空一格)表示截断至多1个字符。例如,输入“computer? ?”就表示在“?”处可以有0~1个字母的变化,系统可检出带有computer和computers的文献。“??” 表示截断至多2个字符。例如,检索式“acid??”表示截断两个词,可检索出含有acid、acidic和acids等记录。“???”则表示截断至多3个字符。例如,输入“stud???”表示截断0~3个字符,可检出带有study、studies、studied等词汇的文献。

从理论上看,各种截词检索,都隐含着逻辑或运算,因而可以提高查全率,扩大检索范围;同时,使用通配符也减少了检索词的输入量,节省了机时,降低了费用。王云、魏思玲等人曾以《中文科技期刊光盘数据库》(1989—1996)等,对截词检索效果进行了统计研究,结果发现:使用截词检索比不使用截词检索检出的文献量增加1倍;而且一个词越短,检索结果就越多。如表4.4和4.5所示。

表4.4 截词检索的效果(王云,1999)

表4.5 截词检索的效果(魏思玲,2001)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈