首页 理论教育 CADAL数字图书馆自动标引方法研究:不足与发展方向

CADAL数字图书馆自动标引方法研究:不足与发展方向

时间:2023-10-27 理论教育 版权反馈
【摘要】:因此,今后我们要把探索基于多媒体信息内容的高层次特征的自动标引方法作为自动标引研究的发展方向之一。

CADAL数字图书馆自动标引方法研究:不足与发展方向

1.3.3.1 自动标引方法研究的不足

自动标引通过近几十年的发展,已取得了长足的进步,但国内自动标引的研究仍存在不足,主要表现在以下几个方面。

1.中文分词算法存在缺陷

找出各知识单元,是进行标引的第一步,但由于中文的特殊性,使得中文分词一直存在问题。中文在基本文法上的特点是词语之间没有间隔,同时又有大量歧义词的存在,这些都造成词的边界模糊,不易区分,从而降低了中文自动分词的准确性,进而影响了以此为基础的自动标引的质量。

2.词表、知识库更新率低

现代社会,各学科发展迅速,词汇的更新速度也非常快。但现在词表的编制依然较慢,新词汇不能及时更新到抽词词表中。同时,知识学习的问题,现阶段也未能得到有效解决,使得知识库更新慢,赶不上学科发展的速度。这些都影响到了自动标引的准确性。

3.多媒体信息的自动标引研究不成熟

国内对自动标引的研究侧重于文本信息,而对于多媒体信息的自动标引研究较少。对于图像、音频、视频等多媒体信息,国内仍采用基于文本的传统标引方法。这样的方法耗时长、成本高,且主观性强,不能满足标引的要求。随着计算机、图像处理人工智能等技术的发展,人们转而研究多媒体信息的基于内容的自动标引方法。目前,在国外,这方面的研究已经成了新热点。但现有的理论研究与系统大都集中于多媒体信息内容的底层特征,标引的精度和深度都不够,离实际应用还有相当长的一段距离。[29]

4.标引结果评价

标引工作完成,需要有一个判别、修正的过程。传统的自动标引评价是对照人工标引结果或由专家打分,该方法主观性大、一致性差、成本高。因此,应建立一个自动标引的通用评价模型,以减少自动标引评价的主观性,节省评价成本。

1.3.3.2 自动标引方法研究的发展方向

针对以上所提出的自动标引方法研究的不足,自动标引方法研究的发展方向将围绕其提出解决的办法。(www.xing528.com)

1.发展语言分析技术

语言分析技术是对词法、句法、语义、篇章等进行分析的方法,是自动分词的基础。语言分析技术的提高,有助于标引效果的提升。中文文法的特殊性,造成了分词的困难,同时在现阶段计算机技术水平下,要把具有不确定性和模糊性的知识用规则形式表达出来,也具有一定的难度,但语言分析是取得良好标引效果的必要条件。因此,探求更高端的语言分析方法,是今后自动标引研究的发展方向之一。

2.发展专家系统的智能学习能力

要提高词表和知识库的更新率,使其能跟上学科发展的速度,就需要提高专家系统的智能学习能力。如何提高专家系统的智能学习能力,也就成了自动标引研究的发展方向之一。

3.发展多媒体信息自动标引方法

随着多媒体技术的不断发展,多媒体信息也成了一个重要的信息源,但现在对其自动标引的研究还处于起步阶段。因此,今后我们要把探索基于多媒体信息内容的高层次特征的自动标引方法作为自动标引研究的发展方向之一。

4.发展自动标引效果评价系统

自动标引效果的评价是衡量标引系统或方法功效的重要手段,客观、准确的评价能够促进自动标引技术的发展。自动标引效果的评价主要依据关键词语义相似度进行,要求评价客观,各阶段中各参与者的判断标准一致,并且运营成本较低。因此,构建自动标引的通用评价模型,提高关键词语义相似度计算的可靠度,整合更多方法提高评价模型的准确度,减少评价的主观性,节省评价成本,也是自动标引研究的发展方向之一。[30]

5.发展多种标引方法的集成学习

不同的标引方法都有其优劣势,单一一种标引方法的使用,不能表现出最优的标引效果,因此把多种标引方法集成起来,进行互补学习,可有效地提高标引的质量。如何进行集成学习,便于各种标引方法的优劣势互补,也是自动标引研究的发展方向之一。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈