1.自动分类方法
自动分类是指基于内容将对象自动分配给预定义的类别,包括分为基于词表的自动分类和基于训练集的自动分类两种基本类型。
(1)基于词表的自动分类
基于词表的自动分类是指所进行的分类处理是借助于分类词表来完成的。词表法分类符合现有的文献分类体系,能够达到了解学科全貌的效果。在检索中还可以利用给定的分类号进行扩检或缩检,以提高检索的查全率或查准率。因此,词表法的实际应用较多。
在词表分类法中,具体的实施步骤是:首先,从待分类信息库中取出一条分类记录,并抽出其主题词。其次,在充分考虑主题词长度和主题词间相互关系的基础上,计算出抽出的主题词长度影响因子,然后算出此主题词的类号权值、上位类权值和同位类权值。第三,利用记录主题词查找系统主题词表,获取对应的分类号及相应权值。重复这一过程,当所有主题词的分类号及权值取完之后,进行类号合并与权值求和,得到分类号的总权值。最后,将得到的所有分类号进行分析比较。如果只有惟一的分类号,可将其直接定位;如果有多个分类号,则取出权值最大的类号作为文献信息的类号。
(2)基于训练集的自动分类
基于训练集的自动分类的一般方法是:先将预先分类过的文献作为训练集,从训练集中得出分类模式,然后用导出的分类模式对其他文献加以分类。从训练集中得出分类模式的过程是一个复杂的过程,需要反复验证、不断细化。具体的实现方法很多,如基于文献特征向量相关性的方法,基于神经网络技术的方法,基于遗传算法的方法、基于关联的方法、基于EM算法的方法等。
2.自动标引技术
自动标引是指利用计算机自动给出信息主题词关键词的技术。包括西文自动标引和汉语自动标引。
(1)西文自动标引技术
在西文中,由于每两个词之间都有空格,并且具有可数的在文中不含实义的虚词,因此自动标引比较简便。主要步骤是:通过禁用词表(Stop-list)排除没有实质意义的虚词,从文本中抽取关键词;对抽取出的关键词,根据不同的位置和词频等特征计算权值,综合考虑,从而确定标引词。西文抽词标引算法的具体流程,如图3.3所示。
(2)汉语自动标引技术
与西文标引技术相比,汉语自动标引技术具有很大的独特性和复杂性。主要原因是:汉语词间没有空格,构词方式灵活多变,书写形式也不够统一,对于一个句子可以采用不同的分词方法从而导致完全不同的含义。20世纪80年代以来,汉语自动标引研究,尤其是自动分词技术取得了很大的进展,并提出了许多自动标引方法,如词典标引法、切分标记法、单汉字标引法等。随着神经网络、人工智能等技术的发展,智能标引法也得到了较多的研究。
图3.3 西文抽词标引算法的流程
①词典标引法:通过构造一个词典,并将其与待标引的信息进行比较,找到匹配的词汇时,即把它作为可选标引词记录下来,最后利用西文成熟的标引技术进行处理。词典标引法在国内发展得比较成熟,实用性较强,在目前自动标引算法中所占比重也较大。特别是对于主题相对集中的专业信息库,词典的构造工作是切实可行的,也能保证比较好的标引质量。(www.xing528.com)
运用词典标引法查找可选标引词时,需要对待标引的文本对象进行扫描。扫描方式有正向扫描、逆向扫描和组合扫描等方式。在对文本对象进行扫描的同时,还需要与词典中的标引词进行匹配。根据系统标引的专指度的不同,匹配分为最长匹配、最短匹配、长短结合匹配、词首匹配等类型。
②切分标引法:将能够断开词和词组或者表示汉字之间的联系的汉字组成切分标记字典,然后根据这个字典对待标引的文本进行切分,将句子分解成词和词组,再按一定的模式将它们分割成单词或专用词,最后利用西文成熟的标引技术予以处理。
切分标引法的典型代表是非用词后缀表法,它将汉字分为非用字、条件用字、表内用字和表外用字4种类型,在实施过程中利用非用字或条件用字进行分词标引,一般采用“有联系则取,无联系则断”的原则。这种方法的算法比较复杂,词典构造比较困难,因此上实际应用并不广泛。
③单汉字标引法:单汉字标引法作为一种自动分词方法,吸收了西文自动标引的思想来解决汉语分词的困难。这种标引方法把一个单汉字作为一个类似于西文单词的标引词,检索时再将单个标引字进行匹配,从而获得检索结果。在实际应用中需要注意两个问题:一是必须先构造禁用字表,以防止将没有标引意义的字作为标引字,如“是”、“在”、“的”、“啊”等;二是在单汉字标引时,如果不进行位置匹配将导致大量的误检,而进行位置匹配将造成算法比较复杂,索引体积增大,运行速度减慢,因此,必须对检索算法进行一些调整,缩小单字索引的规模,如首字直接匹配法、存储检索结果等。
④智能标引法:智能分词法主要是将语法、语义等知识应用于自动标引,主要思想是:建立分词知识库(包括各类词典、句法和语义规则知识库、专门领域知识库、背景知识库等),这些知识库采用语义网络技术或其他相关技术构建,并进行语法和语义分析推理,对语句进行判断,以达到正确分词的目标。目前所采用的具体分析方法有:中心驱动分析法、分词与句法语义分析同步处理法、分层理解分析法等。
应当指出的是,各种汉语自动标引技术都各有自身的优势,也存在着某些缺点,对这些技术和方法需要进行分析比较,只有相互结合,取长补短,不断创新,才能使汉语自动标引技术更加完善,从而推动信息标引和检索技术的全面发展。
思考题:
1.什么要对信息进行组织?
2.信息组织的依据主要包括哪些方面?
3.信息组织有哪些基本的类型?
4.分类检索语言与主题检索语言有何区别?
5.为什么说叙词语言是多种检索语言的原理和技术的综合?
6.谈谈分类法和主题法在网络信息资源组织的应用。
7.什么是元数据?DC由哪些描述项目构成?
8.初步了解《中图法》和《汉表》的基本内容。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。