在自然语言处理领域,学术文本自动摘要问题一直是备受关注的热点和难点,摘要的主要方式分为摘录式摘要、理解式摘要和格式化摘要。其中摘录式摘要将摘要问题转化为文本中句子排序问题,使用权重较高的句子作为摘要。摘录式摘要不考虑句子之间的衔接关系,得到的摘要往往不具有可读性。理解式摘要通过自然语言理解技术生成可读性较高的摘要,但是其难度较高,实现较为困难。格式化摘要是指给定模板,从学术文本中抽取模板中对应的关键术语的摘要方法。相比较于摘录式摘要,格式化摘要生成的摘要具有可读性,而相较于理解式摘要,其方法更容易实现。
词汇功能是对学术文本中的术语的作用及功能的定义及描述,格式化摘要将自动摘要问题转化为特定功能术语的抽取问题,因此基于词汇功能的格式化摘要能够快速地根据学术文本的词汇功能识别结果生成格式化摘要。基于词汇功能的格式化摘要的一般过程是:
①定义摘要模板,模板中使用词汇功能标签代替关键术语。一个简单的模板如下:
“To solve the TOPIC,this paper proposes METHOD.Experiments conducted on the DATASET show that our method is better than BASELINE.”
其中,大写的词汇如TOPIC、METHOD等是模板的槽位(slot)。
②识别学术文本中的术语的词汇功能,根据上文的词汇功能识别方法,对学术文本中术语的词汇功能进行识别。图6-8给出了一个复杂类目体系下的学术文本词汇功能识别结果示例,其中,词汇的颜色已经标为对应词汇功能颜色,词汇功能包括主题、方法、数据、结果等。(www.xing528.com)
③完成词汇功能识别以后,将抽取的词汇填入模板对应的槽位,获得结构化摘要结果。例如,对图6-8所示的文本,可以得到如下的结构化摘要。
“To solve the problem Noun sense induction,this paper proposes a method based on clustering of web search results.Experiments conducted on a small dataset show that our method is better than other techniques in the literature.”
基于学术文本词汇功能识别的学术文本结构化摘要具有可读性好、机器可理解的优点。这一方法对于简单的学术文本能够起到较好的摘要效果,但也存在着方法适用范围不高的问题,对于复杂文本可能难以使用。
图6-8 一个复杂类目体系下的学术文本词汇功能识别效果图
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。