首页 理论教育 信息抽取问题的解决方法

信息抽取问题的解决方法

时间:2023-11-20 理论教育 版权反馈
【摘要】:词汇功能自动识别问题本质上是信息抽取问题,大部分相关技术及相关成果存在于信息抽取研究中。图1-6信息抽取示例命名实体识别命名实体识别与本课题研究关系非常密切,命名实体识别研究已有大量的成果。在信息抽取问题中,属性的抽取和事件的抽取实质上都是关系抽取问题。文献[19]传统关系抽取研究主要采用统计机器学习方法,将关系识别问题转化为分类问题,常见的分类模型有最大熵模型、支持向量机模型以及基于核函数的方法。

信息抽取问题的解决方法

词汇功能自动识别问题本质上是信息抽取问题,大部分相关技术及相关成果存在于信息抽取研究中。因此,文本信息抽取(information extraction,IE)也构成了本任务的相关研究。

一个典型的信息抽取案例如图1-6所示[4]。案例涉及四类实体和两种关系,四类实体分别是人物(person)、公司(company)、职位(position)、时间(year),两种关系分别是雇员关系(employee of)与职位关系(postion of)。需要说明的是,这个示例中抽取的实体和关系并没有涵盖文本中体现出的所有信息,如人物结婚时间这个信息就没有体现。通常,信息抽取只对特定类型实体和特定谓词进行分析。

信息抽取是指从非结构化文本中抽取指定类型的实体(entity)、关系(relation)、事件(event)等信息,并形成结构化输出的自然语言处理技术。[15-16]信息抽取的概念发源于Harris 1958年的论文[17],最早的信息抽取研究是服务于信息检索的。信息抽取研究在20世纪80年代以后开始发展迅速,出现了专业性的会议和评测任务,具有代表性的有Message Understanding Conference(MUC)[18]、Automatic Content Extraction(ACE)[19]和Text Analysis Conference(TAC)[20]等。

信息抽取主要的工作可以简单分为3个部分,分别是命名实体识别(NER)、实体消歧和关系抽取。

图1-6 信息抽取示例

(1)命名实体识别(www.xing528.com)

命名实体识别与本课题研究关系非常密切,命名实体识别研究已有大量的成果。大部分研究针对限定实体(人名、地名、机构名、时间、日期等)[21-23],也有一些研究针对特殊实体,如产品名、医学实体、化学名词等进行[24-26]。命名实体识别的步骤主要包括指称(提及)检测和实体类别分类两个部分。类别分类方法主要有两类,一是人工规则方法,利用手工编制的规则识别实体类别,参见文献[27-30],这种方法需要专家的大量参与,系统性能直接依赖于规则编制的效果,且系统很难移植到其他领域;二是使用机器学习方法,常用的方法包括语言模型方法、CRF模型、最大熵模型、Bootstrap方法。近年来,开放域实体抽取得到了较多的研究,开放域实体抽取的目标是根据种子词从网络中抽取同类型实体,研究者的一般思路是根据种子词从语料中学习模板,进而使用模板识别新的实体,代表性的文献有文献[31-35]。

(2)实体消歧

在信息抽取研究中,实体消歧是另一个与本课题关系密切的研究内容。实体歧义是指实体指称项可能对应于多个实体的问题。实体消歧主要有两种实现方法,一是基于聚类的实体消歧,二是基于链接的实体消歧。基于聚类的实体消歧的核心问题是选取何种特征对指称项进行表示。文献[15,36]常用的特征表示方式包括:词袋模型文献[37-39]、主题模型、社会网络特征[40]、维基百科知识[41]、混合特征[42]等。基于链接的实体消歧的目标是将给定的实体指称项和文本连接到给定知识库的相应实体上,包括候选实体发现和实体连接两个步骤。候选实体可以通过挖掘Wikipedia等百科数据得到,也可以通过挖掘待消歧指称项上下文文本得到。文献[43-44]实体连接的核心是计算指称项与候选实体的相似度,单一实体链接方法和协同实体链接方法是两类主流的链接方法,前者仅考虑实体指称项与目标实体的语义相似度[45-46],后者则利用协同策略同时将多个实体指称连接到实体库[47-49]

(3)关系抽取

关系抽取的目的是自动识别由一对概念及概念间关系构成的三元组,例如,从“支持向量机是线性分类模型的一种”中,可以识别出is-a(支持向量机,线性分类模型)。在信息抽取问题中,属性的抽取和事件的抽取实质上都是关系抽取问题。传统的关系抽取的研究对象是限定领域文本,属性的类型也是限定的,如Located关系、Part-Whole关系等。文献[19]传统关系抽取研究主要采用统计机器学习方法,将关系识别问题转化为分类问题,常见的分类模型有最大熵模型、支持向量机模型以及基于核函数的方法。文献[50-54]开放域关系抽取不限定实体类别,也不限定目标文本。目前,研究者经常使用的开放域关系抽取数据集包括Wikipedia Infobox、网页、纯文本、用户搜索日志等,代表性的研究成果包括TextRunner、WOE。[55-56]另外,Google的Knowledge Graph也大量使用了开放域关系抽取技术。[57]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈