首页 理论教育 关键词法:最早的计算机检索方法

关键词法:最早的计算机检索方法

时间:2023-07-25 理论教育 版权反馈
【摘要】:20世纪50年代,随着计算机在信息检索中的使用,关键词法得到了人们极大的关注。可以说,关键词法是最早用于计算机检索的自然语言形式。采用键词法的检索系统是时差最短和最经济的检索系统。检索时,可以选择一条关键词款目,根据其列出的文摘号转查文摘,以发现符合要求的文献。

关键词法:最早的计算机检索方法

1.关键词与关键词法

关键词(Keyword)是指从文献题名或正文中直接选取的能够表示文献的主题内容,具有实际检索意义的词或词组。与此相反,文献中出现的没有实际检索意义的语词,则称为非关键词,如冠词介词连词、感叹词、代词、某些副词形容词、某些动词(如助动词、情态动词),以及一些使用频率过高的通用词。这些词一般反映在非用词表或禁用词表中。关键词多采用自然语言形式,选取较为自由。

关键词法(Keyword Indexing,亦称键词法)就是指抽取题名或正文中的关键词作为主题标识,并按照字顺加以编排,以提供主题检索途径的一种信息检索语言,或称关键词语言。关键词法可以追溯到19世纪欧洲一些国家图书馆目录或索引编制。1856年,英国的克里斯塔多罗在《图书馆编目技术》(The A rt of M aking Catalogues of Libraries)一书中提出了书名的主词,即关键词这一概念,并在书中介绍了用关键词轮排方法编制公共图书馆目录的书名语词索引的步骤和方法。但由于自然语言本身的问题,这一方法在手工检索系统中后来逐步被标题法所取代。

20世纪50年代,随着计算机在信息检索中的使用,关键词法得到了人们极大的关注。1958年,美国的H.P.卢恩和巴克森德尔(P. B. Baxendale)在华盛顿召开的国际科学信息会议上,首次提出了关于关键词索引的构想和用穿孔卡片编制的关键词索引的样品,引起了极大的反响。可以说,关键词法是最早用于计算机检索的自然语言形式。1963年,美国的《化学文摘》(Chem ical Abstracts)从第58卷起,就开始采用电子计算机编制关键词索引,提供快速检索文献资料主题的途径。

2.键词法的主要特点

(1)采用语词作为概念标识,直接从文献题名、文摘或正文中抽取关键词。相对于采用规范词作为检索标识的叙词法、标题法和元词法来说,键词法基本上属于自然语言,在标引阶段只进行少量控制或不加控制,要求标引水平低,尤其适用于计算机处理和自动标引。

(2)具有丰富的轮排方式并建立字顺排列体系,检索非常方便。采用键词法的检索系统是时差最短和最经济的检索系统。

(3)一般不建立关键词表,即使建立关键词表,也非常简单。通常不设置任何参照或词间关系,因此篇幅很小,管理方便。

(4)由于关键词一般不进行特别的规范处理,词汇质量比较粗略,会影响到信息检索的查全率查准率等。

3.关键词索引(Keyword Index)

键词法的表现形式主要是关键词索引。关键词索引主要有两种类型:一种是带上下文的关键词索引,包括题内关键词索引、题外关键词索引、双重关键词索引;另一种是不带上下文的关键词索引,主要有单纯关键词索引、词对式关键词索引和简单关键词索引等。(www.xing528.com)

(1)题内关键词索引(Keyword-in-context,KW IC),或称上下文关键词索引。这是最早出现的机编索引,由美国的卢恩提出并首先应用于1960年美国化学文摘社创办的《化学题录》。题内关键词索引的标目在款目的中部,左右均为该标目的上下文作为限定词;索引款目按位于款目中部作为标目的关键词的字顺排列。格式如下:

KW IC的设计思想是:文献题名通常具有揭示文献主题内容的作用,从题名中抽取的关键词能够有效地将用户指向相关主题的文献;保留题名中关键词前后的上下文,有助于说明关键词的含义。检索时,先在索引款目中部找到与检索课题有关的关键词,再查看上下文,寻找切题的文献。

(2)题外关键词索引(Keyword Out-of-context,KWOC)。这是最早出现的KW IC的改进形式,特点是将标目的位置置于款目的左端或左上方,标目之后或之下仍保留完整的文献题名。其款目格式是:

编制时依次轮流将题名中的每个关键词置于标目的位置,原题名中的关键词也可用特定的符号(如星号*)代替,题名之后注明文献地址;最后将款目按关键词的字顺排列起来。

KWOC因标目的位置突出,款目形式与普通主题索引接近,可读性强,使用符合检索习惯,但篇幅比KW IC大,并且容易造成复合主题的文献在字顺排列中被分散在多处。

(3)双重关键词索引(Double KW IC),也称双重上下文关键词索引,它是KW IC和KWOC的结合形式,由美国A.E.彼特拉克于1969年创制。特点是双重标目,主标目(第一关键词)在题名之外,副标目(第二关键词)在题名的左端,索引款目共两行。其格式是:

双重关键词索引兼有KW IC和KWOC的优点,使用方便,但索引篇幅大,编制成本高。

(4)单纯关键词索引(Pure Keyword)。是将表征一篇文献主题内容的关键词全部抽出,组成一个纯粹由若干关键词组成的索引。一般从题名、文摘、正文中抽出1个~5个关键词,将每个关键词依次轮流移至款目的左端或左上方作为标目,将其余关键词用做说明语,并给出相应的文献地址。其索引款目的格式为:

单纯关键词索引的制作较为简单,它具有标引深度较大而索引篇幅较小的优点,但由于没有上下文,没有语法结构,所以难以判断索引款目的含义,查准率较低。

(5)简单关键词索引(Single Keyword):只有一个关键词,后面附上全部相关文摘号,极为简单。它一般与文摘下文构成一个检索系统。检索时,可以选择一条关键词款目,根据其列出的文摘号转查文摘,以发现符合要求的文献。它与单元词索引相类似,质量比较粗糙。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈