对于图情领域的学者而言,知识图谱存在着两种含义,一是知识管理领域的知识地图(knowledgemap),是“显示科学知识的发展进程与结构关系的一种图形”[72-74];二是语义网、知识工程意义上的知识图谱(knowledge graph),这种知识图谱以语义网络的形式描述和组织科学知识,存储事物、属性以及事物间关系,帮助语义系统实现实体关联和语义推理。本课题中所指的知识图谱特指语义网、知识工程意义的知识图谱(knowledge graph)。知识图谱建设就其本身而言更多的是一个工程性问题,对其的研究主要表现为信息抽取技术研究和本体知识库构建研究,前者在前文中已有详细交代,这里不再赘述。
知识图谱(knowledge graph)目前还没有一个明确的定义,一般将知识图谱理解为存储人类知识的数据库,在某些时候也特指Google公司的语义搜索引擎。早期的知识图谱可以追溯到WordNet、HowNet。当前,公开的知识图谱主要有Freebase[75]、DBpedia[76]、Wiki-links[77]、WolframAlpha[78]以及美国政府公开数据[79]。其中,Freebase和DBpedia是最常用的两个知识图谱,两者都基于Wikipedia数据以及众包工程得到。Freebase包含了6 800万实体以及10亿关系。Freebase最重要的4个概念是主题(topic)、类型(type)、属性(attribute)、领域(domain)。DBpedia也采用了同Freebase类似的知识组织思想,但在规模和加工精度上要逊于Freebase。当前也出现了一些学术研究知识图谱:中科院国家科学图书馆的STKOS系统利用本体构建的思路构建了一个大型的知识图谱,文献[80-82]则面向历史研究领域构建本体知识库。这些知识图谱都能在一定程度上实现“事物的关联,而不是字符串的关联”,但是却没能同实际的文本相连接,当文本中出现某个字符串时,实际上是不能明确知道它指代的是哪个事物。另外,这些知识图谱也没有功能这一维度。
知识图谱同本体库有着非常密切的关系,本体知识库可以被视为知识图谱,很多成熟的知识图谱,如Freebase、DBpedia都借鉴了本体的思想,但知识图谱对清晰性(clarity)和一致性(coherence)没有本体那么高的要求。尽管如此,完备的或不完备的本体知识库却仍然是当前知识图谱构建的主流,很多本体知识库并不满足严格的本体要求,但可以被视为一种知识图谱。(www.xing528.com)
本体知识库可以通过人工构建、自动构建两种途径实现,构建方法主要有自顶而下、自下而上以及混合方法三种。大多数可用本体以人工构建为主。人工构建通常采用自顶而下的方法,这种方式通常利用上层本体的资源框架,通过人工的方式扩展并填充本体数据。WordNet、HowNet以及上层公用知识本体SUMO都是通过人工方式自顶而下构建得到,文献[83-85]详细介绍了这些本体知识库的构建思路和过程。本体知识库自动构建是近年来知识工程与自然语言处理研究的热门话题,文献[86]提供了对自动本体构建特别是经典本体学习技术的综述,文献[87-88]则对近期的本体学习研究进展作了总结。自动本体构建可以基于结构化数据实现,也可以基于文本等非结构化数据实现。文献[89-92]都针对数据库数据学习并构建本体,构建思路大致相同,主要是利用数据库的逆向工程技术从关系模型抽取到本体的映射规则,将数据库结构转化并精炼为本体库。从Wikipedia或者XML等半结构化数据构建本体有着很好的效果,DBpedia等类本体知识库便是基于Wikipedia实现的,文献[93-94]详述了如何从Wikipedia数据中抽取本体概念和本体关系,文献[95]给出了从XML文档中抽取概念及概念关系的方法。基于文本的抽取包括概念抽取和关系识别两个步骤。概念抽取方面,主要的方法有:基于语言学的方法,如文献[96]利用构词法或者词汇模板抽取合适的字符串;基于统计的方法[97-99]则根据词汇的统计特征构建统计模型抽取需要的字符串。关系识别方面,主要方法有基于模板的方法、基于聚类的方法、基于关联规则的方法以及基于词典的方法。[100]文献[101]将模板匹配的方法应用于关系识别,文献[102]则应用聚类方法识别实体是否关联。文献[103-104]在已有的概念层次下,应用关联规则识别概念间的分类或者非分类关系。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。