首页 理论教育 军事知识图谱研究现状总结

军事知识图谱研究现状总结

时间:2023-06-19 理论教育 版权反馈
【摘要】:2012年5月17日,谷歌发布了谷歌知识图谱智能化搜索功能,其知识图谱的规模包含了5 亿个对象、35 亿个事实和关系,带动了知识图谱的构建及其应用的相关研究。上述种类的知识图谱均有一些代表性的成果得到学术界的初步认可。下面,分别从知识的表示学习、知识图谱构建两个方面介绍课题相关工作的国内外现状。

军事知识图谱研究现状总结

早期的互联网技术解决了网页之间链接的问题,随着Web 2.0 概念的提出,以社交网络为代表的网络平台建立了人与人之间的网络链接,而当互联网技术发展的未来目标是要建立融合个人通信、广播、娱乐、业务应用的泛在网时,如何建立数据之间的链接成为其中有待解决的关键问题。2012年5月17日,谷歌发布了谷歌知识图谱智能化搜索功能,其知识图谱的规模包含了5 亿个对象、35 亿个事实和关系,带动了知识图谱的构建及其应用的相关研究。目前,在知识图谱的研究领域,现有图谱可分为领域无关、面向特定领域以及跨语言这三类,其中领域无关的知识图谱又可进一步细分为人工构建、基于维基百科构建、基于开放知识抽取和中文知识图谱这四种。上述种类的知识图谱均有一些代表性的成果得到学术界的初步认可。人工构建的典型代表有Word-Net 和ResearchCyc。其中WordNet 包含约25 000 个概念和约28 万条isA 关系,同时支持7 种语言和跨语言链接;ResearchCyc 知识库包含了320 万条人类定义的断言,涉及30 万个概念和15 000 个谓词。基于维基百科的知识图谱包括DBPedia、YAGO、Freebase、WikiTaxonomy、BabelNet。其中,DBPedia 有250个概念、400 万个实例、6 000 种属性和30 亿个三元组,并且仍然支持在线更新;YAGO 包含35 万个概念、1 000 万个实例、100 种属性和1.2 亿个三元组;Freebase 包含1 450 个概念、4 000 万个实例和约2 500 万条isA 关系;WikiTaxonomy 包含约11 万个概念和10 万条isA 关系;BabelNet 包含约600 万个概念、770 万个实例、3.8 亿条关系,同时它也是一个包含271 种语言的多语言知识库。基于开放知识抽取的有KnowItAll、NELL、Probase。其中,KnowItAll 包含约5 万条isA 关系;NELL 包含123 个概念和约24 万条isA 关系;Probase 包含约265 万个概念和2 000 万条isA 关系。中文知识图谱的典型代表包括百度知心和搜狗知立方。以上知识图谱都属于领域无关的,领域相关的知识图谱典型的有FOAF、Geonames、Linked Movie Database 等。跨语言知识图谱的典型代表是XLORE,另外,像DBPedia、YAGO、Freebase 等领域无关知识图谱同时也具备跨语言的特征。目前,国外从事知识图谱研究的主要机构及其相关工作有(不限于):卡耐基—梅隆大学主要研究知识的获取方法,研发了NELL 语言知识学习系统;艾伦人工智能研究所主要研究知识抽取方法,研发了ARISTO 及其阅读和推理系统;马—普研究院主要研究知识的表示和获取方法,研发了YAGO 世界知识库;谷歌公司主要研究深度学习理论牛津大学主要研究知识的推理,研发了OWL2 推理机和语义搜索系统。国内知识图谱相关研究主要涉及以下几个方面:知识工程理论与服务方面,某科研院所研发了知识工程平台;某高校在机器学习和知识图谱方面,提出了一系列复杂数据隐含结构学习理论成果,相关的成果已经得到初步应用;某科研院所在知识工程方面,在神经近似逻辑及应用、数据挖掘方面取得较多成果;也有科研院所在模式识别基础理论方面,形成了相关成果,并应用于一些大型IT 企业的相关平台;其他方面,如基于知识的系统、万维网信息探索方面也有相关的代表性理论成果。关于知识图谱的内容获取,主要途径之一是来自百科类知识库,目前较为权威的百科类信息库(如维基百科)可以看作基于语义分类系统的概念网络,其优势是信息的覆盖面广、概念和实例的数据规模庞大,可以利用语法特性和百科信息结构以及外部知识资源来获取分类和实例知识,但是其噪声和不一致的问题仍有待解决。也有研究关注于从非百科知识信息源学习获得分类知识,主要是网络数据、索引擎的结果等,如Probase 项目就是从约16 亿的网页页面中学习出了约265 万个概念和2 000 万条isA 关系。目前机器学习是知识学习的主要手段之一,其中监督学习、半监督学习和无监督学习的方法均有应用。例如利用监督学习的方法在非百科类信息源中进行知识的语义标注,包括基于标注规则学习、基于分类模型学习、基于标签依赖性的序列标注法、受限的层次化条件随机场方法等;还有采用半监督方法的基于百科信息源的跨语言知识学习,或者采用无监督方法的基于非百科信息源的信息抽取方法,等等。除了信息的获取,知识图谱构建目前的热点研究内容还包括实体链接、实体对齐、实体消歧、权威识别、信息融合与判定、文字语义的表示学习、知识的表示学习、链接预测等。简而言之,知识图谱构建目前的研究范畴,包括了从信息源的知识抽取到知识的链接与对齐、共指与歧义的消解、知识的融合以及大规模知识图谱的表示学习等图谱构建的各个环节,这也体现出目前知识图谱构建的相关研究仍然处于新兴和热点阶段。下面,分别从知识的表示学习、知识图谱构建两个方面介绍课题相关工作的国内外现状。

1.知识的表示学习

由于文本文档是大量字符的集合,是非结构化或半结构化的数字信息,所以不能直接被任何分类器所识别,必须将其转换成为一个简洁的、统一的、能够被学习算法和分类器所识别的结构化形式,才能够进行进一步的分析和处理。1975年,Salton 提出的向量空间模型(vector space model)是文本分类中应用最广泛的一种文本表示模型。在该模型中,所有出现在文本中的特征项被作为向量空间中的一维,m 个特征项就构成一个m 维的特征向量空间。每个文本都表示成为m 维特征向量空间中的一个点。Lalmasm 提出了一个基于证据推理的文本表示模型组合框架,其基本思想是每个索引方法(indexing method)称为一个索引器(indexer),每个索引器构成的知识模型都对应一种文本表示,文本表示模型的组合就是由两个或多个索引器构成的知识的组合。A.Schenker 利用图来表示Web 文本,他将一个Web 文本分为三个区域(标题、超链接和普通文本),出现在Web 文本中的单词作为图中的顶点,每个顶点对应文本中的一个单词。如果处在同一个区域的一个单词出现在另一个单词的前面,则这两个单词对应的节点之间就有一条相应的有向边,该有向边用相应的区域来标记。基于图的Web 文本表示方法的优点是能够充分展现隐藏在文本中的结构信息,缺点是计算复杂度高,运算速度慢,不能用于执行大量的、在线的网页分类任务,而且该文本表示方法只能与基于距离的分类器(KNN 等)一起使用,不能被基于模型的分类器所使用,如C4.5、贝叶斯分类器等。为了解决上述问题,A.Markov 等提出了改进的基于图的文本表示方法。T.W.S.Chow 等结合词频和词关联频率两个特性,提出了一种新的、合成的文本表示模型,能够捕捉文本中潜在的语义,降低图运算的复杂性,较大地提高分类性能和准确率。表示学习在自然语言处理领域受到广泛关注起源于Mikolov 等于2013年提出的word2vec 词表示学习模型,其观察到了词向量空间存在一种有趣的平移不变现象。受到该现象的启发,Bordes 等提出了TransE 模型,将知识库中的关系看作实体间的某种平移向量。为了解决TransE 模型在处理1-N,N-1,N- N 复杂关系时的局限性,TransH 模型提出让一个实体在不同的关系下拥有不同的表示。TransH 模型假设实体和关系处于相同的语义空间,这一定程度上限制了TransH 的表示能力;TransR 模型认为一个实体是多种属性的综合体,不同关系关注实体的不同属性,不同的关系应该拥有不同的语义空间。为了解决知识库中实体和关系的异质性与不平衡性,TranSparse 模型提出使用稀疏矩阵代替TransR 模型中的稠密矩阵,解决实体和关系的异质性,对头实体和尾实体分别使用两个不同的投影矩阵,用于解决关系的不平衡性问题。还有一些其他模型基于TransE 模型做了一些改进,尝试从不同的方面对复杂关系建模,在实验数据集上都验证了相关方法的有效性。

2.知识图谱构建

知识图谱构建的数据来源包括结构化、半结构化和非结构化的数据。结构化数据一般为存在关系数据库或面向对象数据库中的数据,由于这些都是深网(deep web)数据,使用通用的爬虫通常难以获得。开放链接数据和开放知识库严格而言属于半结构化的数据,这些数据通常以图形式的数据结构存储,包括DBPedia、YAGO 和Freebase 等。百科类数据是互联网中公开存在的最大数量的用户生成数据集合,这些数据具备一定的结构,因此也属于半结构化数据,如维基百科、互动百科和百度百科等。非结构化数据主要来自开放互联网络,这些海量异构多源的数据信息因为没有固定的结构,所以从中学习知识的难度非常高,目前开放信息抽取技术研究的抽取对象主要还是以文本结构为主。一些具体知识抽取技术可以分为以下4 类。(www.xing528.com)

(1)Taxonomic Knowledge Extractors(分类知识提取器)针对每一个实体将它们在语义层次组织起来。其可以进一步分为两类:一类是以维基百科为中心的(Wikipedia-centric),链接维基百科分类到WordNet。Wu 等设计了Kylin Ontology产生器,通过应用先进的机器学习技术如SVMS(support vector machines,支持向量机)、MLNS(Markov logic networks,马尔可夫逻辑网络)等学习更多的知识映射;另一类是基于网页的(Web- based),Wu 等提出了Probase,基于网页构建了分类,但是该方法因为仅仅聚焦于某一特定类型的数据源,导致在覆盖率和抽取知识的质量上有局限性。

(2)Factual Knowledge Extractors(事实知识提取器)给定一个来自网页的信息片段,判定其真实性。目前一些提出的方法有基于正则表达式的抽取(regex-based extraction)、基于模式的抽取(pattern- based harvesting)、一致性推理(consistency reasoning)、概率方法(probabilistic methods)和Web 表方法(Web-table methods)。但是以上方法在高准确率和高召回率上还不够,规模也不大,还需要进一步改进完善。

(3)Emerging Knowledge Extractors(涌现知识抽取器)主要采用开放信息抽取技术(open IE)来发现来自网页的新的关系和新的实体。由于不是采用一个固定的本体库,所以可以加强本体语义。但是这些方法主要用于词汇层面的研究,经常由于不同的词表示相同的意思导致记录事实的冗余增加。

(4)Temporal Knowledge Extractors(时序知识抽取器)在不同的时间点基于给定的关联确定事实。由于考虑了时间点,解决方案变得更加复杂。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈