最早出现的直接相关研究成果是Kondo等发表于2009年的研究成果。Kondo和Nanba等发表于2009年[8]和2010年的文章[9]最早提出将学术文本中的词汇根据其功能进行分类,Kondo等人的研究将处理对象限定为学术文献的标题,将其中词汇的功能分为“方法(method)”“问题(goal)”“其他(other)”三类。例如,文本“本书将支持向量机用于文本分类”中,“支持向量机”构成了方法类词汇,“文本分类”则被标记为“问题”。
Gupta和Manning在2011年发表在IJNLP会议上的文献[10]中将词汇功能定义为三类:话题(focus)、技术方法(technique)和应用(application)。在此分类定义下,Gupta等使用Bootstrap法针对文本的句法树提取规则模版,进而使用提取到的模板对学术文献摘要中的词汇进行功能识别。在这一方法中,句法树解析结果和种子的选取对识别效果极为重要。
在Gupta[10]的工作基础上,Tsai等[11]将词汇功能分为“方法(technique)”和“应用(application)”两类,前者标明文献使用的方法技术,后者是方法技术所解决的问题。文献[11]同样使用了Bootstrap方法提取用于标注的特征模板,但与文献[10]不同的是,文献[11]没有使用文本的句法解析结果作为特征,因而降低了算法的计算复杂度,但在准确度上较前者却有显著的提高。
文献[12]在Gupta的功能分类基础上,提出一种基于词汇语法关系提取的功能识别方法,并将其应用于语义搜索。文献[12]使用的方法实际上是构造了一个简化的语法树结构,在计算复杂度上要高于文献[11],也没有给出可供参照的评测结果。文献[13]使用了类似的思想,但使用了马尔科夫逻辑网络识别词汇功能。(www.xing528.com)
Ding[14]从计量的角度对功能的概念做了探索。在文献[14]中,Ding给出了知识实体(知识单元)的三层分类,即宏观实体、中观实体、微观实体,宏观层次包括作者、引文、标题等,中观层次则指关键词,微观实体包括研究使用的方法、数据等。Ding[14]的研究从科学计量的角度出发,没有给出有效的实体自动识别和实体关系提取方法,但其思想对本研究却有较大的借鉴意义。
以上研究成果从自然语言处理、信息计量两个不同角度对词汇功能分类、识别与应用进行了研究,取得了一定的效果,构成了本课题的研究基础。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。