首页 理论教育 CADAL数字图书馆自动标引方法研究进展

CADAL数字图书馆自动标引方法研究进展

时间:2023-10-27 理论教育 版权反馈
【摘要】:这个阶段计算机及网络技术迅速发展,用户需求不断提高,因此自动标引方法的研究进入了繁荣期。1958年,卢恩提出了基于绝对频率加权法的自动标引方法。

CADAL数字图书馆自动标引方法研究进展

自动标引的研究至今大致经历了三个阶段:

第一阶段是20世纪50年代至90年代初。这个阶段主要是关于关键字提取方法的研究。

第二阶段是20世纪90年代至90年代末。这个阶段传统的自动标引方法的效率已达到极限,因此自动标引方法的研究进入低谷。

第三阶段是20世纪90年代末至今。这个阶段计算机及网络技术迅速发展,用户需求不断提高,因此自动标引方法的研究进入了繁荣期。

1.3.1.1 国外自动标引方法研究状况

国外对自动标引的研究最早始于20世纪50年代,经过了60多年的发展,取得了较多的成果。

1957年,卢恩(Hans P.Luhn)开始了自动标引研究,他最早将计算机技术应用到了文献标引领域,开创了计算机自动标引的先河。卢恩以Zipf定律为其理论基础,采用了以词频为特征的统计标引方法。该方法的优点是简单易行,且具有一定的客观性和合理性,因此在自动标引中占据重要地位。

1958年,卢恩提出了基于绝对频率加权法的自动标引方法。

1958年,巴克森代尔(Phyllis B.Baxendale)提出了从论题句和介词短语中自动提取关键词的方法。

1959年,埃德蒙森(Harold P.Edmundson)等提出了基于相对频率加权法的自动标引方法。

1960年,马龙(Melvin E.Maron)与库恩斯(Jennafer L.Kuhns)提出了基于相关概率的自动标引方法。

1969年,埃德蒙森提出了提示词加权法、题名加权法、位置加权法等新的加权方法,并对不同加权法如何形成最优的组合进行了探讨。

1970年,厄尔(Lois L.Earl)提出了采用词频统计方法和语言学方法相结合提取关键词的方法。

1973年,索尔顿(Gerard Salton)和杨(Chun S.Yang)提出了基于词区分值的自动标引方法。

1975年,索尔顿(Gerard Salton)等提出了基于VSM模型的自动标引方法。

1983年,迪伦(Martin Dillon)和格雷(Ann S.Gray)研制出了FASIT系统,该系统是一种基于概念的自动标引方法,由概念选择和概念归类两个标引过程组成。

1988年,西门子公司推出了文本处理项目TINA(Text INhalts Analyse),该项目中的一个组成部分是COPSY(Context Operator SYntax)系统,该系统可对名词短语进行自动识别、选择、规范、匹配等。

1990年,迪尔韦斯特(Scott Deerwester)等提出了潜在语义分析的自动标引方法。

1993年,席尔瓦(Wagner Teixeira da Silva)与鲁伊(Ruy Luiz Milidiu)提出了基于相信函数模型的自动标引方法。

1995年,科恩(Jonathan D.Cohen)提出了基于N-Gram分析法的自动标引方法。

1999年,弗兰克(Eibe Frank)等提出了基于朴素贝叶斯的关键词提取方法。

2001年,安霍(Anjo Anjewierden)与卡贝尔(Suzanne Kabel)提出了基于本体的自动标引方法。

2003年,隆友清(Takashi Tomokiyo)与赫斯特(Matthew Hurst)提出了基于语言模型的关键词提取方法。

2003年,胡尔特(Anette Hulth)利用Bagging算法提出了基于集成学习的关键词抽取方法。

2007年,埃尔詹(Gonenc Ercan)与伊利亚斯(Ilyas Cicekli)提出了基于词汇链的自动标引方法。

2008年,布罗内(Sarah de Bruyne)等提出了基于H.264/AVC视频标准的视频信息自动标引方法。

2009年,格里(Gowri Allampalli-Nagaraj)与伊莎贝尔(Isabelle Bichindaritz)提出了基于本体语言的自动标引方法。

2010年,斯米顿(Alan F.Smeaton)等提出了基于TRECVid镜头边界检测的视频信息自动标引方法。

2011年,帕拉尼韦尔(Sengottayan Palanivel)等提出了基于LPCC特征和K-means聚类算法的音频信息自动标引方法。

2012年,埃塞尔(Daniel Esser)利用文档的位置和结构,提出了面向归档类文档的自动标引方法。(www.xing528.com)

2013年,彼得(Piotr Wrzeciono)与卡沃斯基(Waldemar Karwowski)针对波兰语的农业科学论文,结合波兰语词典,提出了一个基于文本分析的自动标引系统。

2014年,马尔瓦(Marwa Hendez)与阿舒尔(Hadhemi Achour)基于TF-IDF,利用领域词典,提出了一个针对教育资源的半自动化标引方法。

2015年,亚当斯(Joel R.Adams)与贝德里克(Steven Bedrick)针对生物医学领域的文献,利用文献摘要之间的相似性,结合MeSH词典,提出了基于潜在语义分析的自动标引方法。

2017年,帕伊(Tayfun Pay)等利用名词性短语和修饰名词性短语的若干个形容词,结合基于位置的启发式过滤方法,提出了一种无监督的全自动关键字抽取方法。

1.3.1.2 国内自动标引方法研究状况

国内自1980年以后开始涉足自动标引领域,也取得了很多成果。

1980年前后,陈培久提出了基于词典切分词标引法的汉语科技文献标题自动标引方法,并用该方法展开了“汉语科技文献标题自动标引试验”。

1984年,王永成与肖玮瑛提出了基于部件词典的自动标引方法。

1985年,朱纳克博士等利用语义结构分析法进行全文自动标引试验,实验结果证明其可以媲美手工标引。

1985年,毛玉姣等展开了对关键词标引的试验,并最终开发了汉语文献自动标引检索系统。

1987年,北京大学图书馆学情报学系开发了汉语科技文献自动标引系统。

1987年,邓钦和与龙泽云开发了基于词典分词、词频统计、位置加权三者结合起来的自动标引方法——微机中文情报检索系统。

1991年,赵宗仁开发了语词结构类比自动标引系统。

1997年,简立峰提出了基于PAT树的关键词提取方法。

2004年,李素建提出了基于最大熵模型的关键词提取方法。

2006年,张阔提出了基于SVM的自动标引方法。

2006年,田苗苗等提出了基于遗传算法的Web信息自动标引方法。

2007年,原小玲提出了基于知识元的知识标引。

2007年,沈静、周金治等提出了基于UCL的文化网格标引方案。

2008年,沈静、周金治等提出了基于ADO技术的网页信息自动标引方法。

2008年,张美娜等提出了基于篇章结构的自动标引算法。

2009年,章成志提出了基于集成学习的自动标引方法。

2012年,高影繁、徐红姣等提出了基于多重过滤策略的自动标引方法。

2012年,杜冉冉提出了基于DOM的Web信息自动抽取技术。

2014年,高影繁等提出了一种基于过滤和权重平滑策略的标引词自动抽取方法。

2014年,王星等利用文献之间的引用关系,提出了基于引文的中文学术文献自动标引方法。

2015年,许德山等基于本体管理平台,实现了科技文献领域词和未登录词的自动标引。

2016年,李千驹等提出了一种基于知识组织的关键词自动标引方法。

2017年,李军莲等通过多维特征概念通用度计算算法,结合STKOS超级科技词表和专家审核,构建了面向文献主题自动标引的英文通用概念表。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈