1.叙词法的概念与原理
叙词法(Descriptor Indexing),或称主题词法,是指以自然语言中精选出来的、经过严格规范化的语词作为文献主题标识,并通过概念组配的方式表达文献主题的一种检索语言。它是在20世纪50年代后期,为适应计算机检索的需要而发展起来的一种新型的检索语言,也是目前应用最为广泛的主题法。
叙词法既是对标题法、单元词法的扬弃,同时也吸取了体系分类法和组配分类法以及关键词法的诸多优点。具体表现在以下几个方面:
(1)吸收了标题法的语词规范化的基本方法,以保证词与概念的一一对应;同时对标题法的先组和参照系统进行了完善。
(2)吸收了元词法的后组技术,同时把元词法的字面组配发展成为概念组配,对某些词组也加以选用,从而有效地克服了字面组配时产生的意义失真。例如,在标引“美术学校”时,元词法使用“美术”、“学校”两个词进行组配,会出现“美术专科学校”、“学校的美术课程”等多种情况,而叙词法直接以“美术学校”进行标引,就不会出现歧义。
(3)吸收了组配分类法的分面组配技术,并建立了概念组配和词汇分面分类表技术。
(4)吸收了体系分类法的学科划分和等级结构的技术,编制了叙词分类索引、等级索引和词汇分类表。
(5)吸收了关键词法的轮排技术,编制叙词轮排索引,从多方面显示叙词间的相互关系,以保证准确、全面地选用叙词进行标引和检索。
由此看来,叙词法是多种检索语言的原理和技术的综合,已经成为现代受控主题语言的主流。如表3.4所示。
表3.4 叙词语言对其他检索语言技术的综合
由此看来,叙词法是一种采用表示单元概念的规范化语词的概念组配来对文献主题进行描述的后组式词汇型标识系统。主要特点是:结构比较完备,词汇控制严格;组配非常准确,标引能力较强;检索效率高,适应能力强;编制管理难度大,标引要求比较高。
2.叙词与叙词规范
(1)叙词的概念与类型
叙词是叙词法最基本的成分,是指以基本概念为基础,经过优选和规范化处理,具有概念组配和语义关系显示功能,用以表达文献主题和检索需求的词或词组,或称描述词,国内也称主题词。“叙词”(Descriptor)和“叙词法”(Descriptor M ethod)的概念最早是由穆尔斯提出的。他认为,叙词由表达概念的符号及其定义或注释两部分组成。
叙词可以划分为普通叙词和专用叙词。普通叙词是指表示各种事物及其属性的叙词,它表达的通常是普通概念,诸如表示各种事物的名词术语,表示科学门类、技术部门、理论学说等名词术语以及表示文献类型和某些具有构词功能的名词术语。例如,“宇宙”、“商品”、“经济危机”、“期刊”等都是普通叙词。专用叙词则是指表示某一特定事物的叙词,它表达的都是单独或特定概念。如地名、人名、年代、民族名称和机构、会议、产品名称、历史事件以及学说、学派、方针政策等的专有名词。例如,“中国”、“汉族”、“马克思”等都是专用叙词。
(2)叙词规范
叙词规范或称叙词词汇控制,是叙词法的重要基础。词汇控制的基本原则:一是文献保证原则(Literature Warrant),即对于某一主题至少有一本文献时,才能确立相应的词汇。二是用户保证原则(User Warrant),即只有当用户对某一词汇感兴趣时,它才能被选为索引词。词汇控制主要包括词类控制、词形控制、词义控制和词间关系控制等4个方面。
①词类控制。叙词主要是从自然语言中精选出来的名词或名词性词组,其他词类一般不加选用。一般来说,对使用频率较高的常用词组,对词组分解后产生歧义的、具有特定检索意义的专有名词或复合词等,如“高等教育”、“工业橡胶”、“人民日报”、“中国石油工业”等都可以直接作为叙词使用。(www.xing528.com)
②词形控制。词形控制包括对语词的形体、外来语用法、标点符号的使用、词序和词长等方面的规范处理。例如,采用“渔具”而不是“鱼具”作为叙词;使用“静态分析(经济学)”、“九·一八事变”作为叙词;词汇长度不得超过14个汉字等。
③词义控制。在一词多义上,通过增加限定词或注释加以说明。例如,“病毒(医学)”、“病毒(计算机)”。在多词一义上,一般选用通用的、规范的、专业性的名词术语。例如,把“国家机构”、“玉米”、“SS-1导弹”“国际经济+经济援助”、“杜鹃”作为正式叙词,而把“国家机关”、“包谷”、“飞毛腿导弹”、“对外经济援助”、“布谷鸟”作为非正式叙词。对词义含糊的词进行注释说明,从而使概念明确、容易理解。例如,“互市 注:中国古代对中外贸易的统称”、“岭南画派 注:中国现代画流派,主要是在广东活动”。
④词间关系控制。叙词之间具有复杂的语义网络,这种语义关系主要有等同关系、等级关系和相关关系3种,如表3.5所示。等同关系是指叙词与非叙词之间的关系,例如,“义务教育 用 普及教育”。等级关系是指专指度深浅不同的两个叙词之间的隶属关系,例如,“马克思主义 分 历史唯物主义”。相关关系是指叙词之间存在一定的关联、交错、对立和矛盾的关系,或称类缘关系,两者互为参照。例如,“仿生 参照 人工智能”、“胡适 参照 实用主义”等。一般来说,在某一主题领域的文献中词语出现的频率越高,这些词语的含义相关的可能性就越大。
表3.5 叙词语义关系参照符号
下面以《汉语主题词表》和《INSPEC叙词表》中的款目为例说明叙词之间的各种语义关系,如表3.6所示。
表3.6 《汉语主题词表》与《INSPEC叙词表》中的款目及其说明
注:INSPEC叙词表是国际物理学和工程信息服务部(International Information Services for the Physics and Engineering Communities,INSPEC)编辑出版的《科学文摘》(Science Abstracts,SA)的一个检索词表。
3.叙词表
叙词表(Thesaurus)是一种将文献标引者和检索者使用的自然语言转换成规范化的系统语言的术语控制工具,也是一种概括特定知识领域并由词义相关、语义相关的术语组成的可以不断补充的规范化词典。亦称主题词表,是叙词法的具体体现。
叙词表最早出现在美国,它的出现可以说是信息检索语言的一个里程碑。第1部用于信息检索的叙词表是美国杜邦公司于1959年前后编制的。1960年,美国武装部队技术信息局(ASTIA)首先编成用于计算机文献检索的叙词表。据统计,目前全世界已经有1 000多种叙词表。它们大体可以分为综合性和专业性两类:综合性叙词表中比较有影响的是美国《工程与科学主题词表》(Thesaurus of Engineering & Scientific Terms,TEST)和《日本科学技术情报中心主题词表》(Thesaurus of Japan Information Center of Science and Technology,JICST);专业性叙词表有美国的《美国教育资源信息叙词表》、《航空航天局主题词表》(NASA Thesaurus)、《国际核信息系统主题词表》,英国的《电机工程师协会主题词表》等。
我国编制的叙词表也已超过130种。综合性的有《汉语主题词表》和《国防科学技术主题词表》;专业性的有《航空科技资料主题词表》和《电子技术汉语主题词表》等。
一般来说,叙词表一般由一个主表和若干个辅表组成。主表亦称字顺表,是将全部主题词按字顺加以排列,并添加必要的标注项和词间关系项,它是叙词表的主体结构。附表则是专有叙词索引,如地区索引、机构索引、人名索引、产品索引等,它是从主表中分离出来的专用词汇表。附表通常是叙词表的辅助部分,大体有以下几种类型:
(1)词族索引(族系表):也称等级索引(Hierarchical List of Thesaurus Terms),是利用概念的等级关系将有关叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统,从而可以从一族中外延最广的叙词(族首词)出发,找到一系列同族的叙词,并且可以明确它们之间的层层隶属关系。族首词按字顺排列,等级关系以·显示。词族索引是实现自动扩检、满足族性检索要求的重要手段,可以弥补字顺表族性检索功能差的缺点。
(2)范畴索引(分类表):也称分类索引,是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之下将叙词按字顺排列,形成一个类似体系分类法的概念分类系统,便于从学科或专业的角度选用叙词。
(3)轮排索引:是利用字面成族的原理,将含有相同单词的词组叙词汇集在一起,排列在该单词之下,可以从它出发检索到任何含有该单词的词组叙词。一个词组叙词由几个单词构成就可以轮排几次。轮排索引便于查找,并起一定的族性检索作用。
(4)双语种对照索引:可以提供从另一种语言字顺入手查词的途径,有助于在标引外文文献时选准叙词或利用本国叙词表查阅外国的检索工具。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。