关系抽取是开放信息抽取的最后一步,从前期得到的数据中识别并抽取出有价值的关系数据。
针对前面得到的概念关系网络,EXVerb使用了一个路径寻找的方法识别关系,也即在概念关系网络中寻找能够找到可用于关系抽取的合适路径。一旦发现网络中存在合适的路径,则将其提取出来构造三元组关系表示。
为了得到能够用于关系提取的路径,EXVerb使用了一个简单的学习方法,首先通过人工对100个句子进行标注。这些句子中文本都经过了前述的术语识别、剪枝、合并的处理,标注者对这些句子中存在的三元组关系进行标注,EXVerb将标注得到的数据对应到各个句子相应的概念关系网络中,通过路径匹配寻找到适用于三元组关系数据抽取的网络路径。
图5-6 词汇关系网络生成过程示意图
通过处理,EXVerb将匹配到的路径添加到路径寻找列表中。EXVerb中还添加了一些手工编制的路径和启发式规则,以提升抽取的准确性和召回率。部分路径见表5-3。
除了路径寻找外,EXVerb还使用了一些规则和词典以处理prepin、prepon等关系带来的标注不完整情况。
图5-7通过一个例子说明EXVerb是如何从文本中抽取得到关系数据的。给定文本:“Discriminative learning methods,such as Maximum Entropy Markov Models,Projection Based Markov Models,Conditional Random Fields,Sequence AdaBoost,Sequence Perceptron,Hidden Markov Support Vector Machines and Maximum-Margin Markov Networks,overcome the limitations of HMMs.”。EXVerb首先经过处理生成了概念关系网络。(www.xing528.com)
表5-3 用于关系抽取的路径
图5-7 从文本生成的概念关系网络
在图中,存在着多个可用的路径,如“methods:nsubj:overcom:limitations”“met hods:prepsuchas:Markov Models”等,这些路径对应的三元组会被抽取出来,形成抽取结果并输出(见表5-4)。图中的节点仅仅给出了Head词汇,而实际上每个节点对应的是一个术语或者术语序列,如“methods”对应的字符串是“Discriminative learningmethods”。在呈现三元组表示时,会给出节点的完整字符串表示。
表5-4 EXVerb抽取的三元组数据示例
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。