面向词汇功能的学术文本深度语义分析是对学术文本分析的一个有益探索,在很多相关领域都有着潜在的应用价值。由于学术文本词汇功能分析是一个相对较新的课题,因此需要解决的问题也多种多样,例如如何定义学术文本的词汇功能,学术文本的词汇功能有哪些,词汇功能自动识别的方法和路径问题,如何开发适用的自动识别算法,学术文本词汇功能分析如何应用。面对这些问题,本书将展开深入研究。
学术文本词汇功能分析的第一个重点是如何定义学术文本词汇功能,确定词汇功能的类别。这里的类别定义一方面需要考虑领域通用性,同时针对特定领域要编制合适的功能类别。因此,本书将首先对词汇功能的类别定义进行研究,力图获得一个合适的学术文本词汇功能框架。面对科研文献的庞大存量以及高速的增长速度,本书将在词汇功能框架定义的基础上,研究有效的算法以自动识别学术文本的词汇功能。考虑到词汇功能的领域适用性,本书还将借用开放信息抽取的思想,研究适用于学术文本分析的开放信息抽取方法,并结合词汇功能分析和开放信息抽取技术研究学术领域知识图谱构建的新途径。最后,将通过预研究和案例的方式说明学术文本词汇功能分析可能的应用点。
具体的,本书组织如下:
第1章,介绍本书课题的研究背景、意义以及现状,概述本书的主要研究内容。
第2章,研究并构建学术文本词汇功能框架,从通用词汇功能和领域词汇功能两个维度分别界定词汇在学术文本中可能表现的功能。这一章还将对学术文本词汇功能标注进行分析,并针对计算机领域科研文本构建一个词汇功能标注数据集。
第3章,针对词汇的“问题”和“方法”提出了一个基于条件随机场模型的词汇功能自动识别方法,本章还提出了一种利用词嵌入(word embedding)方法从文本中自动抽取具有相似“功能”(原义不同但在特定语境中可以相互替换)的动词词汇的方法。
第4章,针对通用词汇功能中的“全局问题”“全局方法”(也即论文需要解决的核心问题和使用的核心方法),本书借鉴文本自动摘要的思想,将“全局问题”“全局方法”的识别这样一个信息抽取问题转化为文本自动摘要问题,并利用机器学习排序(learning to rank)方法加以解决。实验结果表明,这一方法具有较好的效果。
第5章,针对预定义词汇功能类别和有限类别词汇功能识别方法的不足,提出了开放性词汇功能识别的研究思路,实现了一种针对学术文本的开放信息抽取方法。
第6章,梳理和分析词汇功能识别的应用点,并重点研究其中的一个应用点,即通过学术文本词汇功能分析实现新研究课题自动发现。
第7章,采用基于规则模板的方法对领域无关的学术文献词汇功能(问题和方法)进行自动标引,通过对计算机领域的大规模文献数据进行词汇功能标引,验证了该标引方法的可行性,构建了一个领域无关学术文本词汇功能数据集;并对研究方法的功能特点进行定义和实践,提供了一个新的分析视角。(www.xing528.com)
第8章,制定信息计量学领域关键词语义功能分类框架,并基于该分类框架,构建信息计量学领域关键词语义功能标注数据集,为学术文本语义分析与理解相关研究提供理论基础和数据支撑,同时对数据集进行分析,为该数据集的应用做初步的探索。
第9章,从学术文本词汇功能的角度出发,考虑科研文献中词汇的语义功能,设计和实现了一个基于词汇功能识别的科研文献分析系统CS-LAS。
第10章,对全书内容进行总结。
【注释】
[1]http://dl.acm.org/。
[2]Udani Goldee,et al.Noun sense induction using web search results[C]//Proceedings of the 28th Annual International.ACM SIGIR Conference on Research and Development in Information Retrieval,2005.
[3]图片来自于系统http:\\irlab.whu.edu.cn\semsearch。
[4]图片来源为Ralph Grishman教授的课程讲义Information Extraction:Capabilities and Challenges。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。