6.5.2 国内外本体检索研究现状
1.本体检索模型类型
目前比较流行的本体检索模型有六种,以下对这六种模型的特点和应用情况作个简单的介绍:
(1)语义网搜索引擎(Semantic Web search engines)
语义网搜索引擎类似于传统的搜索引擎,它通过crawler爬虫在网上收集SWD(Semantic Web Document)语义网文档,并提供索引、检索服务和排序算法。目前网络的语义网搜索引擎做得比较好的比如swoogle和semanticwebsearch,并且在ranking机制和核心检索算法上都有所创新。
但是语义网搜索引擎又与传统的搜索引擎有所不同,主要区别如表6-5所示。
表6-5 语义网搜索引擎与传统搜索引擎的区别表
(2)语义网浏览工具(navigation tools)
此类工具比如HyperDAML,Swoop,Protege,POWL。它们通过用户输入一个SWD的地址,显示它的相关信息:类、属性、实例等。类似于传统IE,FireFox浏览器。IE,FireFox把html信息解析后可视化展现出来,Swoop等就把rdf/owl信息解析后根据语义(类、属性、实例)可视化展现出来。
(2)与(1)的不同在于它必须知道一个明确的SWD地址(explicit links),而(1)是通过爬虫找到的,而且(1)同时处理多个SWD,而(2)只显示一个SWD。
严格意义上来说语义网浏览工具并不是检索模型,但是如果在它的基础之上进行扩展,就能够提供本体检索方面的功能。它主要在两个方向上继续发展:
①保留浏览功能,加上建库功能,就成了语义网门户(Semantic Web Portal),而浏览只是其中一个子功能。比如Protégé和POWL。
②加强浏览UI接口(本体可视化)和实例级别(instance level)的语义挖掘(关系挖掘,推理挖掘),就成了基于本体的知识挖掘系统,比如我们提出的GGHZ—DL检索模型。由于有知识挖掘功能,针对本体库必然存在不同的配置信息,所以不能够简单更换SWD的地址来切换本体库,可提供切换的UI接口。
(3)语义网知识库(Semantic Web repositories)
语义网知识库是让建库人员把建好的本体库提交给它,在它那里形成一个大目录供其他人使用。比较典型的例子,比如www.schemaweb.info、rdfdata.org,SWED,等等。
这种检索模型有它内在的领域局限性,它只能提供某一类或某一领域的知识,比如SWED只有环境工程方面的本体库。
另外,(3)和(1)的区别在于不是crawler爬虫得到的,而是通过主动提交的方式,而且领域有限制。
(4)RDF收集器(specialized RDF data collections)
RDF收集器是针对专门某种类型的RDF进行爬虫收集,并提供有限制的服务,比如RSS是专门针对新闻的本体。FOAF,RSS,DOAP,Creative Commons,等等,都属于这类。(4)和(1)的区别在于只针对某种类型的RDF,不具有通用性。
(5)本体标注检索模型(ontology annotation)
比如KIM这类本体标注模型,可以认为是介于google和swoogle之间的一种模型,它搜索的范围还是传统的World Wide Web,搜索的目标也还是网页web page(*.htm,*.jsp...),但是利用了本体标注机制使得检索的查准率和查全率有所提高,是利用本体技术对传统搜索引擎的补充。
另外KIM也提供类似(2)的功能,比如touchgraph的可视化浏览功能。
(6)领域本体检索模型
领域本体检索模型,指的是针对某个领域,建立本体库,然后针对这个领域的特点,建立推理机制和特殊的检索模型。(6)和(2)的区别在于不具有通用性,但是能体现该领域的特点,也有可能对用户隐藏本体机制,类似于黑匣子,比如:OntoView是芬兰博物馆的本体检索模型。SAI(Semantic Association Identification and Knowledge Discovery for National Security Applications)美国国家安全局:主要是两个人物本体的关系检索。GGHZ—DL检索模型也是针对历史领域建立的特殊检索模型,包括相应的推理规则库,另外GGHZ—DL检索模型又有一定通用性,该模型也可以适用于其他领域。
2.本体检索模型的主流思路
从本体检索模型研究的现状来看,目前主要分为两大主流思路:基于本体的信息检索和本体知识检索。前者是在传统信息检索的基础之上加上本体处理这一层,利用领域本体的语义表达能力提高查准率和查全率。实现主要依靠的是本体标注(ontology annotation)或者对查询的语义扩展,比较典型的是KIM。后者首先通过构建领域本体库实现本体知识的数字化,然后建立相应的检索模型实现本体知识检索。瑞典SWED项目和芬兰OntoView就是这种类型。另外对于本体平台(ontology portal)来说,在其体系结构中,检索模块也是必不可少的,像ontoWeb,KAON,pOWL这类的项目都是通过后者实现检索模块的。
GGHZ—DL检索模型属于后者。
3.本体检索核心技术的发展
(1)本体检索查询语言
在本体检索模型中,查询是一项基本功能。因此为系统选择一个好的查询语言是非常重要。以下介绍目前比较流行的几种本体检索查询:(www.xing528.com)
①RDQL
RDQL目前是W3C的一个子项目。RDQL的语法类似SQL语言,但是省略了SQL语言中的from从句。例如select?p where(? p,<rdfs:label>,"foo″)来收集所有带有foo标签的资源。在查询语言前半部分的选择从句允许创建变量。在查询语句总通过不同的using从句来定义名字空间的缩写。RDQL并不能解析RDF Schema的信息,因此其查询输出是一个变量表和一个可能的字符串。由于RDQL语言本身对数据类型提供了初步的支持,因此它可以被安全地使用。
②RQL
RQL是一种根据功能方法分类的语言,它支持RDF Graph中结点和边的一般路径表示。RQL是基于图形模式的,其创新点在于它可以通过发掘分类词表并且增加资源的类来实现域和数据查询的结合。RQL的语法和OQL语法相类似。例如:select Pub from{Pub} ns3:year{y}where y=″2004″using namespace ns3=…其返回结果将是字符串变量而不是图形。RQL语言并不和RDF语义完全兼容:在RDF本身的模型上必须要添加一些约束才能使用RQL语言对其进行查询。
③SeRQL
SeRQL(Sename RDF Query Language)是基于现有的几种的几种查询语言上的一种松散的查询语言,包括RQL、RDQL和N3。它的主要设计目标是结合现有的查询语言的优点来创建一种高效的、且更具表达力的语言。它的语法和RQL相似,并在RQL上做了少许修改,使得SeRQL更易被理解。SeRQL是基于对RDF Graph的形式上的解释,但是这种解释是直接基于RDF的模型理论的。
④SPARQL
SPARQL语言是由W3C RDF Data Access Working Group设计的一种RDF查询语言。作为一种查询语言,由于SPARQL只能访问那些在模型中提供的数据而在查询语言本身并没有任何推理的能力。它不能像Jena模式那样运用OWL语言推理的能力提供用户所需要的东西。它唯一能做的就是描述应用程序提出的问题,通过一系列字符串的形式或者RDF graph的形式来返回问题的答案。
GGHZ—DL检索模型采取的是RDQL查询语言,原因是Jena提供RDQL的程序API,能够将本体检索与本体推理进行无缝结合,实现起来可操作性比较强。
(2)本体检索算法
传统检索算法主要包括布尔逻辑、向量空间等。而语义网本体技术在应用层次的检索算法上目前处于起步阶段,新思路层出不穷,但是都不是很成熟。比较有代表性的有如下几种本体检索算法:
①混合发散激活算法(Hybrid Spread Activation,HSA)
HSA这个算法的基本思路如下:
ⅰ通过lucene对用户输入关键词进行检索,得到初始实例列表,列表由lucece机制排序并有初始score权重O(ti)(lucene对实例的datatype property进行索引)。
ⅱ从列表中按降序取出实例i,然后把它的权重O(ti)贡献给和它相连的其他实例,贡献值O(ti)*wij*fij*(1-a)。其中wij等于ij两实例关系权重映射Weight Mapping的值,fij为关系类型的权重,1-a为削减参数(因为是迭代,每次要削减一部分)根据新的权值,对列表重新排列,并把实例i放入结果列表。
ⅲ循环进行ⅰ,ⅱ操作,直到没有关系可以激活为止。
该算法的时间复杂度为:O(|E|*log|V|)。经过测试认为该算法语义检索效果比较好,但是效率比较低,非常消耗资源,所以很难走向实用。
②本体关系检索算法
美国警察总署的SAI本体项目(Semantic Association Identification,and Knowledge Discovery for National Security Application),提出一个高效使用的关系检索算法和排序算法。其中关系检索目标定义为:
ⅰ以A开头,以B结尾的路径,有向。
ⅱ以A开头,以B开头的两条路径如果相交。
ⅲ以A开头的路径和以B开头的路径非常相似。
检索结果排序思路为:
ⅰ全局排序:实例具体的排序高、路径长/短排序。
ⅱ局部排序:根据用户偏好,穿过的用户有兴趣本体分子越多排序越高。
该算法针对本体关系检索创新提出语义关系检索的概念,算法效率比较高,效果也很好。该算法已经应用到实际的美国警察总署的SAI项目中。
(3)本体语义扩展检索算法
该算法主要思路是利用本体定义的知识库,对查询进行语义扩展,将被扩展了的查需求的查询结果作为相关结果集合返回给用户。该算法核心在于如何分析相似本体的相似度,即如何分析被查询的本体的等价本体,相似本体,子类本体,父类本体等。如Ontology-Driven Semantic Information Retrieval提出的计算本体相似度的算法公式:
Sim(C1,C2)=max[-log(minc1,c2[length(C1,C2)]/2*D)]
综上所述,本体检索算法各不相同,但是最终目的都是为了发挥本体在语义方面的优势,提供一种传统检索无法提供的语义检索的途径。我们提出的GGHZ—DL检索模型在检索算法上综合了各种本体检索算法的优点,创新提出“本体实例/属性检索算法”和“本体关系检索算法”等几种语义检索算法,我们将在后文中详细介绍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。