首页 理论教育 文献检索原理与语言:存储、检索、应用

文献检索原理与语言:存储、检索、应用

时间:2023-11-30 理论教育 版权反馈
【摘要】:文献信息的存储是为了检索,是检索的前提和基础。由于检索语言是专供检索者查找文献而用的,但检索者不可能都是经过专门训练的,这就要求检索语言要接近自然语言,并由有利于检索者理解和掌握的词汇、词法和句法组成。目前,自然语言应用越来越广泛,已部分取代主题语言,这是文献信息检索发展的趋势之一。

文献检索原理与语言:存储、检索、应用

一、文献检索的原理

文献信息检索的基本原理指是对大量分散无序的文献信息进行收集、加工、组织、

存储,建立各种各样的检索系统,并通过一定的方法和手段,将检索提问的标识与存

储在检索工具中的文献特征标识进行比较,达到一致,以便有效地提取和利用文献。

文献信息检索包括文献信息的存储和检索两个过程。 文献信息的存储是为了检索,

是检索的前提和基础。存储的过程主要是对信息源进行标引, 将其外表和内容特征(如

文献的标题、作者、来源和主题等)用特定的检索语言转化为一定的标识(如主题词

分类号和类目名称等) ,再将这些标识按一定的顺序编排后输入检索系统,从而提供有

章可循的检索途径。检索过程就是检索者在查找所需文献时,以该系统所用的标识作

为提问标识,与系统中的文献特征标识进行比较,并将文献特征标识与提问标识一致

的文献线索从检索系统中检出,检出的部分就是检索的结果。如图 2-1 所示。

存储

过程

检索

过程

文献

内容

检索

需要

主题

概念

主题

概念

检索标识

提问标识

检 索 语 言

文 献 描 述

检 索 结 果

检 索 工 具

主题

分析

主题

分析

图 2-1 文献检索原理

二、文献检索的语言

(一)检索语言的概念

语言是人们进行信息交流的工具,是沟通人们思想的桥梁。为了文献存储有序、

查找方便,世界各国都在创造各自的检索语言(Retrieval Language) 。

检索语言是用来描述文献内部特征、外表特征和表达信息提问的一种人工语言,

这种人工语言是从自然语言中精选出来并加以规范化的一套词汇符号。检索语言是概

括文献信息内容或外在特征及其相互关系的概念标识体系,是沟通文献信息存储和检

索两个过程中信息标引人员和信息检索人员双方思路的桥梁,是编制检索工具的各种

索引的依据。检索的匹配就是通过检索语言的匹配来实现的。从某种意义上来说,它

是一种文献信息识别的符号体系,是人与检索工具或系统对话的基础。

(二)检索语言的要素

1.符号

字符是检索语言的具体表现形式,它可以是经过规范化处理的自然语言,也可以

是给予特定含义的一套数码字母或代码混合,按其自然顺序组成符号,形成有特指

意义的符号系统。

2.词汇

词汇是在自然语言的基础上经过规范化的词汇。检索语言的基本词汇是指组成一

部分类表或词表中全部检索语词的总汇。如分类号码的集合就是分类语言的词汇。分

类表、词表等也可以说是检索语言词典,是把自然语言转换成检索用语的工具。

3.语法

语法是用于表达复杂概念关系的人工法则和自然法则。任何一种文献信息检索

语言,都是表达一系列概括文献信息内容的概念及其相互关系的概念标识系统,它

们全部都建立在概念逻辑的基础之上。文献信息检索语言在表达各种概念及其相互

关系上普遍应用了概念的内涵与外延、相容关系与不相容关系等概念逻辑原理,并

且有效地利用了概念的划分与概括、要领的分析与综合这两种逻辑方法来建立自己

的结构体系。

(三)检索语言的要求

检索语言是检索专用的人工创造的书面语言,而不是人们普遍使用的普通语言。

因此,它除了具备普通语言的特点外,还有以下几点要求。

(1)易用性。由于检索语言是专供检索者查找文献而用的,但检索者不可能都是

经过专门训练的,这就要求检索语言要接近自然语言,并由有利于检索者理解和掌握

的词汇、词法和句法组成。

(2)严谨性。由于计算机只能读出和比较各种代码,告诉检索者比较的结果是否

匹配,而不可能找出检索语言中的语义含混和逻辑错误,所以检索语言比自然语言更

严格。检索语言应有作为语法措施的使用规则(如标引规则等) ,对词汇及其组合的正

确使用,给予适当的控制和指导。检索语言的基本词汇和词组,都应具有足够的专指

度和语义区分能力,能够识别和区分不同的信息主题内容,都应与概念意义之间达到

一一对应,尽可能减少同义和多义现象。

(3)灵活性。检索语言的基本词汇总是有限的,不可能也不必要用基本词汇表达

所有的主题意义,应尽可能充分利用词汇之间的灵活组合,创造出几乎无限的表达能

力。此外,由于科学技术在不断发展,文献用语和提问用语也是动态变化的。与其相

适应,检索语言应及时吸收新概念、新词汇,淘汰过时的概念和词汇。

(4)保障性。保障性包括文献的保障和用户的保障。检索语言是供标引和检索使

用的,它必须满足标引和检索的实际需求,因此检索语言中的词语必须是来自文献和

提问的。如果检索语言中的语词既不是文献使用的,也不是提问使用的,那么就不适

合检索语言。这恰恰是检索语言与各学科领域的概念区别所在,也是不同于自然语言

的重要一点。

(四)检索语言的类别

1.按检索词的规范化程度划分

(1)规范语言(Controlled Language)

它又称受控语言、人工语言(Artificial Language) ,是一种采用经过人工控制的规

范性的词语或符号作为检索标目,来专指或网罗相应的概念,达到标引词表达文献概

单一性的一种检索语言。这些规范化的标目能较好地对同义词、近义词、相关词、

多义词及缩略词等概念进行规范。它主要用来编制参考工具书、手工检索工具的分类

目录与各种索引以及网上数据库中的分类导航表等。但是,由于它是一种人工控制语

言,因此不可避免地会受到语言编制者的专业领域、知识水平等因素的影响,在一定

程度上会造成标引不一致,检索工具编制成本偏高、更新维护相对困难等问题。

(2)非规范语言(Uncontrolled Language)

它又称非受控语言、自然语言(Natural Language) ,它是采用未经人工控制的词语

或符号作为检索标目的一种检索语言。各种检索工具的正文部分的各条描述记录与计

算机检索系统的全文数据库中的各条描写记录,一般都是用非规范语言来描述的。一

般当某些特定概念无法用规范词准确表达、或新出现的词语(如“纳米” )还未来得及

被规范时,就需要使用非规范语言。目前,自然语言应用越来越广泛,已部分取代主

题语言,这是文献信息检索发展的趋势之一。

2.按检索标识的组配方式划分

(1)先组式语言

它是指复杂主题的标识在检索前已经在检索系统中组配好了的检索语言。例如分

类语言、标题语言等均属于这一类型。

(2)后组式语言

它是指在检索前检索系统中的检索标识是独立的,实施检索后,才根据检索需要

进行组配的检索语言。如叙词语言、单元词语言、关键词语言等。

3.按描述信息的特征划分

(1)描述信息外部特征的检索语言

描述信息外部特征的检索语言是以信息外表特征作为信息存储的标识和信息检索的

出发点而设计的索引语言, 如以文献的书名、 刊名、 篇名等作为标目的书名目录(索引) 、

刊名目录(索引) 、篇名索引等,又如以文献的著者、译者、编者等姓名或机关团体名称

作为标识的著者索引、专利权人索引等,还有以文献末尾所附的参考文献的外部特征作

为标识的,如引文索引 ; 以文献特有的序号作为标识的索引系统,如专利号索引、科技

报告号索引等,这些都是采用描述信息外表特征的标识建立起来的检索语言。

(2)描述信息内部特征的检索语言

描述信息内容特征的语言与外部特征语言相比,在揭示信息特征与信息提问方面

更具有深度。描述信息内容特征的检索语言, 按其构成原理又可分为代码检索语言(代

码语言) 、主题法检索语言(主题语言)和分类法检索语言(分类语言) 。

代码语言是指对事物的某方面特征, 用某种代码系统来加以标引和排列事物概念,

从而提供检索的检索语言。如化合物分子式代码系统、化学物质登记号代码系统、文

献类型代码(专利号、合同号、报告号)系统等。

由于目前常用的主要是主题语言和分类语言,下面将对其进行详细的介绍。

三、主题语言

主题语言也称为主题法,是一种用语词标识处理原始信息、组织主题检索工具或

检索系统的方法。主题语言通常以信息的主题为依据选择语词作为概念标识,将概念

标识按照一定规则排列, 概念之间的相互关系通过一套参照系统指引等方法间接显示。

具体地说,它是指以自然语言的字符为字符,以规范化或未经规范化的名词术语为基

本词汇,以概念之间的形式逻辑作为语法和构词法,用一组词语作为信息检索标识而

构成的一种检索语言。根据词语的选词原则、组配方式、规范方法的不同,主题语言(www.xing528.com)

又分为标题词语言、单元词语言、关键词语言和叙词语言。

(一)标题词语言

标题词语言是主题语言系统中最早的一种类型,它是以标题词作为文献内容标识

和检索依据的一种主题语言,标题词通常是指从自然语言中选取并对词义、词形及词

组的组合方式进行处理,表示事物概念的规范词。

标题词的结构通常由主、副标题词组配构成,这种结构可称为两级标题。两级标

题是按“事物—事物的方面”的原则组成,这样就使存储在检索工具中的文献形成了

按“事物—事物的方面”的排检系统。如果采用多级标题,那么副标题词还可细分为

第三级、第四级标题。主标题词和副标题词在编制标题词表时已固定组配好,所以又

属于先组式检索语言。典型的标题词语言是美国工程信息公司出版的 《工程标题词表》

美国国会标题词表》 。

标题词语言通过规范处理与参照系统来表达各主题概念及各标题词之间存在的各

种主要关系。主要规范类型及参照关系的表达方式如下。 

(1)同义词等同的规范,对于等同概念的词,用 see(见)参照方式,优选出一

词作标引词,使一个概念只用一个标题词来表达,排除多词一义现象,以避免漏检,

如 :同义词 corn,maize,mealie,see maize(maize 为规范标题词) ; airplane,plane,

aeroplane,see airplane(airplane 为规范标题词) ; 俗名与学名 rice see oryza sativa(用学名

作标题词) ; 简称与全称 FAO see Food and Agriculture Organization(用全称作标题词) 。

(2)相关关系的规范标题词,除等同、等级关系之外的其他关系,用 see also(参

见)方式,指引出相关标题,起扩大检索的作用,也可防止漏检。如 : Animal housing

see also Cattle housing,Pig housing,Poultry housing,Sheep housing(畜舍参见牛舍、

猪舍、禽舍、羊舍) 。

(二)单元词语言

单元词语言又叫元词语言,它是一种从文献中抽取出来的,能表达文献主题的基

本的、不能再分的单位词。它是一种经过规范化、只表述唯一独立概念的检索语言。

单元词语言主要用来标引文献的主题概念,具有组配灵活、方便表达复合概念的

功能。但字面的组配不是概念的组配。例如, “离散数学”不是单元词,只有“离散”

和“数学”才是单元词。又如,对于“公路桥梁”这一概念,按元词的做法是通过“公

路”和“桥梁”这两个元词组配来表达该概念,而标题词则直接选用“公路桥梁”这

个词组来表达它。常用的单元词语言检索工具有《化学专利单元词索引》和《世界专

利索引——规范化主题词表》等。

但是,由于单元词的结构特征,使其具有字面组配、概念易失真、表达专指概念

差的缺点。在实际的检索系统中元词语言使用极少, 但它率先探索了后组式检索方法,

为叙词语言的发展和使用开辟了道路。单元词语言目前已为叙词语言所取代。

(三)叙词语言

叙词语言是从文献内容中抽取出来,以表达文献主题内容的概念单元为基础,经

过规范化处理,可以进行逻辑组配的一种主题语言。它是一种规范化的检索语言,有

一套较完整的参照系统,能显示叙词之间的相互关系,属于后组式检索语言。它的基

本性质是概念组配,概念组配是概念的分析和综合,而不是简单依据字面意义进行组

词和拆词。

叙词语言吸收了多种检索语言的原理和方法,既适用于手工检索,又适用于

计算机检索。常用的叙词表有 : INSPEC 的词表《INSPEC Thesaurus》 、EI 的《EI

Thesaurus》及我国编辑出版的《汉语主题词表》和《叙词表》等。

(四)关键词语言

关键词语言是指从文献信息的题名、 摘要或正文中抽取出来能揭示信息内容特征、

对表达文献主题具有实质意义的自由词。除了某些无检索意义的词汇,诸如冠词、介

词、连词、感叹词、代词、某些副词、某些形容词、部分动词(连系动词、情态动词、

助动词) 、部分名词(如理论、试验、技术、应用)等外,几乎任何具有实际意义的信

息单元都能成为关键词。关键词语言是自然语言,基本上不作规范化处理,易实现文

献的自动标引。

由于关键词语言的标引词来自文献信息的题名、文摘或正文等,是作者自身的用

词,不会出现因标引不当而引起的概念失真。关键词不受词表控制,适合计算机自动

编制各种类型的关键词索引,因此当新的科技用词出现时可以直接成为关键词,便于

科研人员追踪学科发展。

但是,由于在自然语言中一词多义和多词一义现象普遍存在,导致使用关键词语

言进行检索时查全率查准率均不能保证。因此,信息用户在用关键词语言进行信息

检索前首先要明确自己追求的是“全”还是“准” ,进而采用相应的措施,以满足自己

的信息需求。

四、分类语言

分类语言是用分类号或类目来表达各种概念,并将各种概念按学科体系或性质进

行分类和系统排列的语言。分类语言按照知识门类的逻辑次序,运用概念划分和归属

的方法,采取由总到分、由一般到个别、由抽象到具体、由低级到高级、由简单到复

杂这样层层划分,逐步展开,形成一个有序的等级制体系。分类语言的具体表现是分

类法。按分类法的构成原理分类语言可分为体系分类语言、组配分类语言和混合分类

语言三大类。目前,使用最广泛的是体系分类语言。

(一)体系分类语言

体系分类语言是一种直接体现学科知识分类的等级制概念的标志系统,是通过对

概括性文献信息内容特征进行分类的检索语言。 体系分类语言是运用概念划分的方法,

按知识门类的逻辑次序,从总到分、从一般到具体、从简单到复杂,进行层层划分,

从而产生许多不同级别的类目,层层隶属,形成一个严格按学科门类划分和排列的等

级制体系。体系分类语言广泛用于图书、资料的分类和检索,它是图书情报界使用最

普遍的一种检索语言,它的具体体现形式就是图书分类法。

国外常用的分类语言有《美国国会图书馆分类法》 (LC 分类法) 、 《杜威十进分类

法》 (DDC 分类法) 、 《国际十进分类法》 (UDC 分类法)等。国内常用的分类语言主要

有《中国图书馆分类法》 《中国科学院图书分类法》 《中国人民大学图书馆分类法》等。

目前在我国使用最多的分类法是《中国图书馆分类法》 (以下简称《中图法》 ) 。

《中图法》始编于 1971 年,是我国图书馆和情报文献单位普遍使用的一部综合性的

分类法。 《中图法》是在文科学分类的基础上,结合图书的特性所编制的分类法,采用汉

语拼音字母与阿拉伯数字相结合,用一个字母代表一个大类,以字母顺序反映大类的次

序,在字母后用数字作标记。 《中图法》主要供大型图书馆图书分类使用。另外,为适应

不同图书信息机构及不同类型文献分类的需要,它还有几个配套版本 : 《中国图书资料分

类法》 《中国图书馆图书分类法(简本) 》和《中国图书馆图书分类法 · 期刊分类表》等。

(二)组配分类语言

组配分类语言也称为组配分类法,是为了适应现代信息资源标引和检索的需要发展

起来的分类法类型。它运用概念可分析和综合的原理,设置若干标准单元的类表,使用

时先分析标引对象的主题,根据主题分析的结果,表示该项主题在分析体系中的次序。

分“面”是组配分类法的基本特征。可以表征一类事物某一方面属性和问题的一

组概念或类目,构成一个“面” (分面、组面) 。对某一类事物的属性或问题的分面数

目随实际需要而定,但每个面都必须有一定的检索意义,而且每个面中的类目力求完

备,即各面的类目可以细分,构成一个等级体系。一个面中并列关系类目的排列次序,

与体系分类表中同位类的排列次序原则相同。有时,一个面还可分为两个亚面(二级

面) 。每个分面类目都是构成文献情报内容的主题因素。 

(三)混合分类语言

混合分类语言也称为混合式分类法,它是介于上述两种分类法之间,既应用概念

划分,又应用概念分析和综合的原理而编制的分类法。混合式分类融体系和组配相互

为一体,因此拥有两者的优点。现在的一些网站如新浪、网易等都采用这种分类体系。

(四)分类法的结构

分类法的分类体系,通常以分类表的形式体现出来,所以一般对分类法和分类表

常不予严格区分。

分类表中的各级类目常被赋予一定的类号和类名,各种分类表所采用的编号方法

各有不同。有的使用单一符号,即分类号全由数字或拉丁字母组成,有的使用混合号

码,即由数字和拉丁字母相互配合而成,在编号制度上有的采用顺序制,有的采用层

累制,有的则为层累顺序相结合的混合制(详见有关文献分类的专著) 。

分类表大体上由下列几部分组成。 

(1)编制说明 : 包括列类原则、体系结构、标记方法等。

(2)本大类 : 用户据此可对某一分类体系有一个总的了解。

(3)简表 : 这是体系分类表的骨架,承上启下。对文献进行分类时可先用简表作

引导,再到详表中寻找适当的细目。

(4)详表 : 也称主表,是分类表的正文部分。

(5)辅助表 : 也称复分表,他们用以细分详表中的类目。其功能是减少分类表的

篇幅,且有一定的助记性,一般附于详表之前或之后。

(6)类目索引 : 本索引将各个类名按字顺排列,并指出相应的类号,因而有助于

确定分类号,也便于从某个主题去查找有关类目。

(五)分类语言的特点

分类语言具有几下几个特点。 

第一,分类语言是以学科分类为基础的一种信息检索语言,能较好地体现学科的

系统性,符合人们认识事物的规律和处理事物的习惯,便于从学科和专业角度检索文

献,也便于组织文献信息的排架。因此,容易为人们熟悉和使用。

第二,分类语言采用的检索标识,是国际上广泛采用的拉丁字母和阿拉伯数字,

通用性强。但在标引文献信息时,需经过双重间接转换(即主题概念—学科概念—分

类号码) ,转换过程易发生偏差,容易出错。

第三,分类语言能较好地反映学科的纵向关系,而不容易反映学科间相互交叉渗

透的横向联系,因而不易准确标引和检索交叉学科的文献。

第四,分类语言是一种先组式的信息检索语言,即在检索之前就已经固定好的标

识系统,具有相对稳定性,不能随时修改和补充,难以反映新兴学科的内容,因而较

难标引和检索新兴学科的文献。

第五,使用分类语言标引和检索文献信息时必须对学科的分类体系有较深了解。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈