目前,互联网已经迈入Web3.0时代,搜索引擎越来越成为人们在线获取信息和知识的重要工具。搜索引擎的形态也从最基本的文本检索发展到以图搜图(见图8-10),并进一步发展到知识图谱。
图8-10 百度的图像搜索引擎
基于文本关键词的传统搜索模式,返回的一堆根据关联性排序算法排列后的网页池,搜索的结果简单直观,和搜索关键词高度关联,僵化机械地反映了查询词和网页之间的匹配关系,缺乏知识结构的逻辑拓展性。这种情况直到2012年5月,搜索引擎巨头谷歌在它的搜索页面上首次引入“知识图谱”概念,用户除得到搜索网页链接外,还将看到更加智能化的答案。如图8-11所示,在百度的知识图谱搜索引擎中搜索“视频结构化描述”,将得到视频结构化描述这个技术领域的发展现状以及公安部三所关于该技术的定义、视频结构化关联技术领域智能视频分析、结构化信息、视频检索等。
从繁杂的网页到结构化的实体知识,搜索引擎通过一种构建搜索关键词相关知识体系的方式为用户提供更具条理的信息,提供给用户更多的延伸知识。从这个角度上来说,知识图片的重大意义在于,它是以实体的方式更合乎逻辑地自然地表达这个世界,而不是朴素的字符串。
图8-11 视频结构化描述技术的知识图谱检索结果
知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法和计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。
目前,国内的互联网门户公司也纷纷推出了自己的知识图谱产品,如百度的知识图谱产品(见图8-12),搜狗的“知立方”等。很明显,互联网门户公司希望利用知识图谱为查询词赋予丰富的语义信息,建立与现实世界的实体关系,从而帮助用户更快找到所需的信息,提升用户体验。
图8-12 百度知识图谱界面
1)知识图谱具有的特点
(1)用户搜索次数越多,范围越广,Google、百度等搜索引擎等就能获取越多信息和内容。
(2)赋予字串新的意义,而不只是单纯的字串。
(3)融合了所有的学科,以便于用户搜索时的连贯性。
(4)为用户找出更加准确的信息,作出更全面的总结并提供更有深度的相关信息。
(5)把与关键词相关的知识体系系统化地展示给用户。
(6)搜索引擎从整个互联网汲取有用的信息让用户能够获得更多相关的公共资源。
2)知识图谱提升了搜索效果
(1)找到最想要的信息 知识图谱根据查询词按照知识体系的方式组织提供了结构化的信息。一个搜索请求可能代表多重含义,知识图谱会将信息全面展现出来,让用户找到自己最想要的那种含义。
(2)提供最全面的摘要 有了知识图谱,搜索引擎可以更好地理解用户搜索的信息,并总结出与搜索话题相关的内容。例如,当用户搜索“钱学森”时,不仅可看到钱学森的生平信息,还能获得关于其教育背景和相关人际交往方面的详细介绍,如图8-13所示。此外,知识图谱也会帮助用户了解事物之间的关系。
图8-13 知识图谱搜索人物结果
(3)让搜索更有深度和广度 由于知识图谱构建了一个与搜索结果相关的完整的知识体系,所以用户往往会获得意想不到的发现。在搜索中,用户可能会了解到某个新的事实或新的联系,促使其进行一系列的全新搜索查询。(www.xing528.com)
3)知识图谱的构建
知识图谱最重要的数据来源之一是以维基百科、百度百科为代表的大规模知识库(见表8-1),在这些由网民协同编辑构建的知识库中,包含大量的结构化知识,可以高效地转化到知识图谱中。此外,互联网上的海量网页也蕴藏了大量的知识,这些知识更为杂乱,如果没有一种有序高效内含强逻辑的组织关系进行管理,无疑是一种信息灾难。通过自动化技术将其有效抽取,也为知识图谱的构建提供重要数据来源。
在大规模知识库方面,除了维基百科外,还有众多专门领域知识库。在互联网链接数据方面,2007年W3C(国际万维网组织)发起了开放互联数据项目(Linked Open Data,LOD),以RDF形式在Web上发布各种开放数据集。RDF是一种描述结构化知识的框架,它将实体间的关系表示为(实体1,关系,实体2)的三元组,LOD允许在不同来源之间的数据项之间设置RDF链接,实现语义Web数据库。目前世界已经基于LOD标准发布了数千个数据集,包含数千亿RDF三元组,这些链接数据之间存在严重的冗余和异构问题,实现多数据源的知识融合和约简,是必须要研究解决的一个重要问题。
表8-1 公开的知识图谱库
相比以上数据的人工众包生成,如何直接从互联网网页文本数据抽取知识,生成结构化信息,是最值得研究的重大课题。网页形式多样、噪声信息多、信息可信度低、需要多源印证,这些都成为网页数据结构化的难点。
在知识图谱的构建过程中,需要实现多源数据的融合。主要包括实体融合、关系融合和实例融合。知识融合是实现大规模知识图谱的必由之路。
4)知识图谱的关键技术及典型应用
知识图谱的关键技术涉及实体链接、关系抽取、知识推理和知识表示。
(1)实体链接 是指将网页上的实体链接到相应的知识库词条上的这一过程。手工建立链接是一件非常繁重的工作,如何让计算机自动建立实体链接,是知识图谱大规模应用的技术前提。实体链接主要任务包括实体识别和实体消歧。
(2)关系抽取 是指从互联网网页文本中抽取实体关系,按照“模板生成—实例抽取”的流程不断迭代直至收敛。例如,最初可以通过“X是Y的省会”模板中抽取(江苏,省会,南京)、(安徽,省会,合肥)等三元组实例。然后根据这些三元组实例可以发现更多的匹配模板,再用新发现的模板抽取更多的三元组实例,通过反复迭代不断抽取新的实例和模板。这种方式简单直观,但在扩展过程中容易出现语义漂移现象。基于以上原理,将三元组中每个实体对看做分类样例,将实体对关系看做分类标签,利用机器学习分类模型构建信息抽取系统。
(3)知识推理 是指在相关规则的支持下从已有知识中发现隐含知识的过程,能够发现实体间新的关系。目前,通过依赖关系间的同现情况,利用关联挖掘技术自动发现推理规则。但这种基于同现统计的方法存在着严重的数据稀疏问题。目前,采用谓词逻辑和马尔科夫逻辑网络的推理方法是当前的研究热点。
(4)知识表示 是指对知识图谱进行表达和存储的方式。一般情况,将知识图谱作为复杂网络进行存储,每个节点带有实体标签,每条边带有关系标签,相关应用任务需要借助图算法来完成。这种表述方法计算复杂度较高无法适应大规模应用,也一样面临着严重的数据稀疏问题。最近,伴随着深度学习和表示学习的最新进展,分布式表示方案开始得到应用,能够极大地缓解基于网络表示的稀疏性问题,应用于很多重要任务中。
知识图谱的典型应用包括查询理解、简单推理、自动问答和文档表示。
(1)查询理解 体现在返回结果直显、简单推理能力等。比如当查询上海人口时,会直接返回上海人口数量,而非页面结果。
(2)简单推理 比如,查询鲁迅的弟弟的日本妻子,查询推理能够知道鲁迅的弟弟是周作人,周作人的日本妻子叫做羽太信子,如图8-14所示。
图8-14 百度知识图谱的推理功能
(3)知识问答 比如百度的知识图谱搜索引擎,能够回答诸如“毛泽东牺牲在朝鲜的儿子是谁”等问题,支持对查询直接返回精准答案而非海量网页池,如图8-15所示。以上功能的实现,需要搜索引擎具备语义理解和知识推理功能,这些功能的实现离不开大规模结构化的知识图谱的有力支持。
(4)在文档表示 知识图谱也将基于字符串匹配的文档搜索方式提升到知识理解层次。经典的文档表示方案基于空间向量模型,以词袋假设为基础,不考虑文档中词汇顺序,通过关键词搜索,表示简单,效率较高。但这种方式在实际应用中暴露很多固有缺陷,现在在知识图谱框架内,采用基于知识的文档表示方案,通过文章的实体及其复杂关系来表示关系,而不是一组词汇字符串。这种文档表示方式比词汇向量拥有更丰富的表示空间,也为文档分类、文档摘要和关键词抽取等应用,提供了更丰富的可供计算比较的信息。
图8-15 知识图谱搜索引擎问答功能
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。