本小节提出了一种基于开放信息抽取的知识实体关系搜索应用。开放信息抽取能够从文本中抽取出三元组数据,三元组通常表示为:
其中,Entity1和Entity2是两个字符串,通常对应于两个实体,Relation表示两个实体之间的关系。对于学术文本而言,三元组数据描述了知识实体通过何种关系关联。
基于三元组的知识实体搜索源于Open Information Extraction系统[10]的启发,该系统利用三元组数据实现了一个基于开放信息抽取的细粒度检索系统。图6-6给出了该系统的界面。
图6-6 Open Information Extraction实体—关系搜索系统
在该系统中,可以通过构造查询(Argument1:Type:Country,Relation:is located in,Argument2:Africa)查找与非洲(Africa)存在“is located in”关系,且类型为国家(Country)的实体系统返回41个答案,包括Kenya(肯尼亚)、Ghana(加纳)、Nigeria(尼日利亚)、Egypt(埃及)等。(www.xing528.com)
利用针对学术文本的开放信息抽取技术,可以构建面向学术文本的知识实体关系搜索工具。例如,针对给定文本:“Discriminative learning methods,such as Maximum Entropy Markov Models,Projection Based Markov Models,Conditional Random Fields,Sequence AdaBoost,Sequence Perceptron,Hidden Markov Support Vector Machines and Maximum-Margin Markov Networks,overcome the limitations of HMMs.”,可以识别出如表6-4所示的三元组数据。
表6-4 EXVerb抽取的三元组数据示例
利用三元组数据,可以实现面向实体的知识检索任务。例如,基于表6-4给出的三元组关系数据,用户希望找到判别式学习方法的子类,则可以构造查询(Argument1:“Discriminative learning methods”,Rela-tion:including,Argument2:?),通过对三元组数据集的搜索,可以得到Maximum En-tropy Markov Models、Conditional Random Fields、Sequence AdaBoost等知识实体。
再如,存在大量类似于“X:is employed in:this paper”的三元组。利用这种类型的三元组数据,可以构造如“(Argument1:“Support Vector Machines”,Relation:be used in,Argument2:Type:Paper)”等检索在研究过程中使用支持向量机的研究文献。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。