首页 理论教育 数字图书馆知识标引分类研究成果

数字图书馆知识标引分类研究成果

时间:2023-10-27 理论教育 版权反馈
【摘要】:标引按照使用的标引语言或标识符号的类型,可分为分类标引和主题标引;按照使用的标引设备,可分为手工标引和自动标引。[7]1.2.2.2 主题标引主题标引,是依据特定的主题语言,赋予文献主题标识的过程。通过主题标引,人们可以把同一主题的相关信息聚类在一起,并按照规定的顺序排列起来。

数字图书馆知识标引分类研究成果

标引按照使用的标引语言或标识符号的类型,可分为分类标引和主题标引;按照使用的标引设备,可分为手工标引和自动标引。

1.2.2.1 分类标引

分类标引,又称文献分类或信息分类,是依据特定的分类规则,对文献进行分类标识的过程。分类标引的过程,就是根据已经选定的分类规则,对标引对象的特征进行分析,在确定标引对象所属的类目后,将所要表达的相关信息,用对应分类法中规定的符号代码表示出来的过程。[6]简单来说,就是按照规则把某些具有共同特征的信息聚类在一起,并依据信息间的关联关系把它们组成一个条理清晰、层次分明的整体的过程。经过分类标引,可以将大量的文献分门别类,纳入特定的分类体系,使得对于原本无序的文献,可按照特定的分类体系对其进行分类标识,使其组成一个有序的学科体系。分类标引还能较好地体现出知识的系统性,把同一领域的知识集中在一起,将不同的区分开来,从而满足了用户按专业领域进行检索的需要。[7]

1.2.2.2 主题标引

主题标引,是依据特定的主题语言,赋予文献主题标识的过程。主题标引所依据的主题语言可以是标题词语言、叙词语言、关键词语言等。因此,主题标引赋予文献的主题标识可能是标题词、叙词、关键词等。通过主题标引,人们可以把同一主题的相关信息聚类在一起,并按照规定的顺序排列起来。主题标引是对标引对象进行主题分析,在确定标引对象的主题概念后,按照一定的词汇控制方式,对标引对象赋予恰当的语词标识的过程。与分类标引相比,主题标引可以集中有关一个主题的各种信息,有较强的直观性、专指性和适应性。[8]主题标引一般有两类标引方式,一种是自由标引方式,这种标引方式是标引人员直接从已有的描述标引对象信息特征的语句中选取主题词作为标识,这种方式对标引人员的专业化程度要求较高;另一种是词表标引方式,这种标引方式是从已制定好的各类主题词表中选择相关的语词作为标识,这种方式对主题词表的维护要求较高。

用主题标引文献确实可取得不错的效果,但也存在问题:一是主题词存在不连贯性,使得使用者很难直接从主题词中较准确地获得文献的主题;二是当主题词数量偏少时,标引效果就会受到影响。在这种情况下,情报界提出了主题概念标引,它对文献的主题概括能力较强,可以使标引的效果增强。

目前,获得概念主题词的方法主要有三类:一是在某个主题词在概念层次中没有直接的同义词或准同义词的情况下,直接选取上位词作为主题概念;二是在某个主题词在层次概念词典中有若干直接同义词且这些同义词在文章中也出现的时候,通过聚类产生上位词作为主题概念;三是在若干主题词同时出现在文章的标题或正文的某些字段中的情况下,将两个(或以上)主题词合成生成主题概念。[9]

1.2.2.3 手工标引

手工标引的基本流程为:①阅读文献;②分析文献内容;③提取主题概念;④表达主题概念;⑤使表达规范化;⑥编制索引目录;⑦编辑为索引和文档。

与自动标引相比,手工标引存在很多的弊端,概括起来有以下几方面:(www.xing528.com)

(1)一致性差。人具有主观性,所以不同的标引人员在标引同样的文献时也可能会有不同的结果,这使得手工标引在标引一致性方面存在较大的缺陷。

(2)技术性强。手工标引属于一项技术性较强的工作,对标引人员的专业要求较高,标引人员不仅要具有图书情报理论基础,而且要具备较强的专业素质。

(3)效率较低。手工标引需要标引人员在浏览全文后,才能找出文献的主题信息,并对其进行标引,因此手工标引的速度很难大幅度提高,效率较低。

1.2.2.4 自动标引

与手工标引相比,自动标引具备较好的优势。自动标引是指利用计算机从文献中自动提取相关知识引导的过程。

自动标引的基本流程为:①获得文献文本,以准备标引,此文本须转化为机读式文献;②语句分析;③词语加权;④确定标引词的权值;⑤选出标引词;⑥把标引词转换为受控词;⑦文档生成与索引编辑输出;⑧根据反馈信息,再进行词相关加权计算,以提高标引质量。

按照标引词来源的不同,自动标引可以分为自动抽词标引和自动赋词标引。

自动抽词标引指的是由计算机直接从原文中自动抽取词或者词语作为标引来描述文献的主题内容。它涉及如何从文献中抽取出可以表达其实质意义的词语,并根据这些词汇确定标引词。[10]后文所讲到的知识抽取就属于此类标引。

自动赋词标引指的是使用预先编制好的受控词表,先取词语对文献进行标引。它涉及如何编制受控词表来反映文献内容中的关键词。后文所讲到的学科文献学术水平等级切分就属于此类标引。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈