首页 理论教育 开放信息抽取在学术文本中的应用

开放信息抽取在学术文本中的应用

时间:2023-11-20 理论教育 版权反馈
【摘要】:开放信息抽取是一种不同于传统信息抽取的信息抽取解决思路。开放信息抽取并不要求预先指定实体类型和关系类型,而是直接将关系通过关系术语加以表示,这种关系术语可能来自于原始文本,也可能是在原始文本的基础上经过简单处理的文本。正是对关系类型限定的放松,使得开放信息抽取有能力处理“任意”类型的关系。因此,为了更好地从语义层面对学术文本进行处理,将开放信息抽取引入到学术文本语义分析之中便有了必要。

开放信息抽取在学术文本中的应用

传统意义上的信息抽取工具需要预定的实体类型或者关系类型,并要求有大量的标注数据作为训练数据。这类信息抽取方法并不具备太好的可扩展性,只能应用于限定领域和限定类型的数据。随着互联网的发展,越来越多的数据正在被生产出来,文本的复杂程度也越来越高,这些都给信息抽取研究工作带来了巨大的挑战。

开放信息抽取是一种不同于传统信息抽取的信息抽取解决思路。开放信息抽取并不要求预先指定实体类型和关系类型,而是直接将关系通过关系术语加以表示,这种关系术语可能来自于原始文本,也可能是在原始文本的基础上经过简单处理的文本。正是对关系类型限定的放松,使得开放信息抽取有能力处理“任意”类型的关系。

前面的章节主要是从传统信息抽取的视角对词汇功能的自动识别进行了研究,然而,词汇表现出的功能并不是一定的,词汇之间的关系也并不限定于某个小的预定义的范围。因此,为了更好地从语义层面对学术文本进行处理,将开放信息抽取引入到学术文本语义分析之中便有了必要。

开放信息抽取最早由Banko、Eztonio等提出。开放信息抽取的目标是从大量的自然语言文本中抽取三元组形式的关系数据,三元组通常表示为:

其中,Entity1和Entity2是两个字符串,通常对应于两个实体,Relation表示两个实体之间的关系。(www.xing528.com)

比如,句子“Communication appliances,intended for home settings,require intuitive forms of interaction.”开放信息抽取的抽取结果形式如下:

再如,句子“A.Einstein,who was born in Ulm,has won the Nobel Prize.”实体关系的三元组表示形式如下:

开放信息抽取已经得到了很多的研究,研究者们构建了多个开放信息抽取(open information extraction,OIE)系统,具有代表性的有Know ItALL(这也是最早的可获取的OIE系统)、WOE、TextRunner以及Reverb。但是,已有的开放信息系统主要是针对Web文本建构的,并没有针对学术文本进行针对性的设计,因此在学术文本上效果都不太理想。本节后面的内容安排如下,首先对已有的开放信息抽取方法进行梳理,并介绍一些具有代表性的开放信息抽取方法,然后介绍一种新的面向学术文本的开放信息抽取方法,最后通过实验检验系统的效果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈