国外对本体的研究主要侧重于以下几个方面:①领域本体的构造研究;②本体在信息检索中的应用研究;③本体评估方法的研究;④本体整合和提取方法研究。
3.1.3.1 领域本体的构造研究
领域本体是指特定领域中的概念以及概念之间的关系。对数字图书馆而言,领域本体在数字图书馆对其知识进行语义层面的组织中扮演着至关重要的角色,因此可以说,领域本体的构建是语义网络环境下数字图书馆知识组织不可或缺的关键步骤。[12]领域本体在医学、化学、教育等多个学科被广泛构建。
医学领域本体可以具有医学术语管理、整合和数据分享、知识复用和决策支持等多种功能。高水平的医学领域本体,例如HIS(Health Information System)是以多伦多大学的Craighe Francis教授为带头人所开发的基于本体的健康信息系统,该设计描述了在医学领域应用本体获取用户信息的方法。在数据处理层面,Kuziemsky教授采用了实地设计理论的方法[design‐grounded theory(GT‐PD)method]来获取数据,并且对其进行编码以提供给本体。[13]MIAKT(Medical Imaging with Advanced Knowledge Technologies,先进知识技术下的医学成像)是一个两年的项目,其目的是为乳腺癌筛查程序和乳腺癌三层评估(Triple Assessment,TA)提供高级知识服务的原型。[14]其他医学领域本体还有GALEN、UMLS、SNOMED等。
化学领域的本体出现得比较早,应用也比较广泛、成熟。早在20世纪,就有化学本体出现和被应用的例子。近年来,随着本体自身的发展和完善,化学领域的本体更是对化学学科自身的发展起着非常重要的作用。化学领域的本体很多,如ChEBI(Chemical Entities of Biological Interest)是一个免费的分子实体字典;CO(The Chemical Ontology)是一种自动地基于化学官能团的新型化学本体,它客观地通过计算机程序分配对小分子进行分类;BACIIS(Biological and Chemical Information Integration System,生物和化学信息集成系统)实现了多个异构生命科学Web数据库的一体化,提供全球范围的跨数据库的免费获取;BAO是一个为BACIIS建立的领域本体,其主要目标有三:一是引导用户构建有效的疑问,二是方便解决各种数据格式和资料来源的多变性,三是方便整合存储生物和化学数据的Web数据库;OntoCAPE(Ontology for Computer‐Aided Process Engineering)是一个在化学处理工程领域正式的、重要的本体;FGO(Functional Group Ontology)是一个化学功能团的结构分类,这个化学功能团作为已有知识的一个重要信息来源可自动集成支持识别、分类和预测数据分析的任务。[15]
近年来,教育软件领域出现了许多针对综合课程体系的系统,这些系统建立在学习对象元数据紧密联系的基础之上,允许学习对象与学习对象之间相互结合,从而形成一个完整的教学体系。PASER(Planner for the Automatic Synthesis of Educational Resources)是一个利用人工智能设计(AIPlanning)和语义网等工具对课程体系进行自动综合的系统,致力于优化在线学习环境中学习过程的系统。PASER可以存储、管理和创作电子教学材料(即学习对象),以为学习者提供更加人性化的课程。该系统及其运作通过人工智能设计和语义网有效实现,即使遇到与学习对象相脱节的情况,也可以自动创建学习路径以及时满足学习者对于知识的需求的功能。[16]
其他如生物、地理等学科中,领域本体都有较多的实践。随着本体应用的发展,领域本体会在更多的学科中被实践。
3.1.3.2 本体在信息检索中的应用研究
目前,主要的信息检索方法是直接通过关键词进行检索,这种信息检索技术已不能满足用户在语义上和知识上的需求。于是,寻求新检索的方法也就成为当前研究的热点。本体具有良好的概念层次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。[17]高质量的本体知识是提高信息检索和管理质量的关键因素。现有的多数研究都选择现成的领域本体作为其本体知识库。
目前,国外对本体在信息检索领域的应用的研究较多,不少研究利用单个领域本体来改善特定学科领域的信息检索效果。休斯敦大学的Ping Chen和Rakesh Verma提出了一种基于用户询问的文本摘要技术来改善医学信息检索效果。他们选择美国国家医学图书馆开发的UMLS(Unified Medical Language System,一体化医学语言系统)作为其主要的医学本体知识库,通过网络爬虫从数个在线医学数据库中抽取文档并保存在本地文档库中,然后利用UMLS对本地文档进行数据清洗,生成新的文档摘要,建立基于概念的文档索引。完成这些工作之后,他们的系统可以利用UMLS对用户输入的关键词进行关键词扩展,并反馈给用户,由用户最后决定其使用的关键词。最后,系统会根据用户最终确定的扩展关键词对本地文档库的文档摘要进行语义匹配度运算,并将检索结果按相关度高低排列返回给用户。[18]
此外,也有研究采用多本体整合的方式提高信息检索性能。Aijuan Don提出了一个基于多本体的多媒体注解模型,通过将领域无关的多媒体本体与领域本体进行整合,实现从多个特定领域角度对多媒体内容进行描述,从而使用户能更好地表达自身对不同多媒体信息的需求。还有研究者正在尝试基于多媒体内容描述工具M PEG‐7(Moving Picture Experts Group,活动图像专家组)开发一个多媒体本体。研究者提出了一个整合多领域本体的策略,设计一个术语抽取程序来自动从多媒体数据的文本资源中抽取特定领域的本体术语。初步实验表明,基于多本体的多媒体注解可以更好地满足不同用户的信息需求。[19](www.xing528.com)
3.1.3.3 本体评估方法研究
本体评估对于指导本体构建过程和保证所构建本体最大限度地满足应用需求具有重要作用。Jannz Brank等人把本体评估方法分为四类:①基于“黄金标准”的方法,即将所构建的本体与一个现有的公认比较成熟的“黄金标准”进行比较,罗列其不足并进行改进;②基于本体应用的方法,即在一个特定应用环境如语义网、信息检索中,测试一组本体以确定适合该应用的本体;③基于语料库的方法,即使用术语抽取算法从语料库中抽出术语,计算被本体覆盖的术语数量,或是用一个向量来表示本体和语料库,然后计算本体向量与语料向量之间的差距;④基于一套预先定义好的原则和必要条件等进行评估的方法,多是从构建本体的原则来评估本体。[20]本体评估工具主要有ODEval、OntoQA、Core、OntoManager等。
3.1.3.4 本体整合和提取方法研究
本体整合也称为本体集成(ontology integration),其目的是使异质的本体互操作,是本体研究的热点之一。欧洲委员会于2001年启动的SWAP(Semantic Web and Peer‐to‐peer)项目发现了本体集成问题,即将多个不同团队构建的不同小本体集成为大本体时的本体映射和本体合并问题。欧洲委员会资助的另一个项目SEKT(Semantically Enabled Knowledge Technologies)也发现了本质上的问题,他们需要找出本体间的关系,实现本体之间的交互,以达成基于这些本体的数据的重用和互操作。[21]Paolo Bouquet等人给出了本体异质(ontology heterogeneity)的详细分析,指出在分布式和开放式系统中,本体异质是不可避免的,并根据本体异质产生的原因将其划分为四个层次:表示层、术语层、概念层和语义层。[22]
对于本体集成的工具,目前国外比较有代表性的有Ariadne、PROMPT、OntoMerge、MAFRA、GLUE、OntoMap、InfoSleuth、OBSERVER、RDFT、MOMIS等。目前,国内比较权威的本体集成工具有南京大学瞿裕忠和胡伟等人研发的一款本体匹配工具Falcon‐AO和天津大学魏哲雄等人研发的一款本体合并工具的雏形OnMerge。
PROM PT(原SMART)是2000年由美国的斯坦福大学医药信息研究小组开发的一个多本体管理的工具包,可以看作是一个本体合并和交互的工具包。PROMPT是本体工具Protégé的插件,也是对Protégé本体编辑环境的扩展,并且实现了在Protégé环境中集成本体的功能。PROMPT由四个相互关联的组件构成:①AnchorPROMPT是一个从本体结构图中发现映射的工具;②PROMPTDiff是从一个本体的不同版本中发现区别的工具;③IPROMPT是交互的本体合并工具;④PROMPTFactor能够从一个本体中抽取一部分。PROMPT能够识别需要进行合并的操作(合并类、合并属性、合并类和属性间的关系,等等),并且能够识别应用了这些合并操作之后所产生的冲突,如命名冲突、空引用、类结构冗余、属性值限制与类继承冲突,等等。可以说,PROM PT不仅是一个本体集成工具,还可以胜任本体的半自动化维护的任务。[23]
OntoMerge是2002年由耶鲁大学研发的,是一种通过本体合并实现本体翻译的方法,也是一种本体集成方法。这种方法通过公理语义的计算对不同本体进行合并。合并过程首先对所有的术语根据名称空间的差异进行区分,然后使用“桥公理(Bridging Axioms)”连接两个本体中的重叠部分。在这种集成工具中,两个相关本体的合并通过合并两个本体的术语及其定义术语的公理,然后在本体中添加连接两个本体中相关术语的桥公理来实现。OntoMerge中包含半自动化的产生桥公理的工具,产生出来的公理需要经过专家的确认。[24]
Falcon‐AO是南京大学计算机科学与技术系万维网软件研究组瞿裕忠和胡伟等人开发的一个本体匹配系统,它的体系结构基本上与COMA++的体系结构类似,主要包括5个模块:本体模型池(model pool),用于解析输入到内存中的本体;匹配结果集(alignment set),用于产生本体匹配的结果并对匹配结果进行评估;匹配器库(matcher library),用于管理初始匹配器库;中央控制器(central controller),用于匹配策略的人工匹配、执行匹配器和合并相似度;外部存储数据库(repository stores),用于存储匹配过程中可重复使用的数据。[25]
OnMerge是天津大学的魏哲雄等人在2006年研发的一款本体合并工具。它主要基于编辑距离计算概念与概念之间、属性与属性之间的相似度,形成本体合并的建议,并将合并建议以可视化的方式提供给专家,以备专家根据合并建议对相关本体进行合并。[26]
本体自动提取的研究也是热点之一。近年来,因特网已经成为普罗大众最重要的信息来源,越来越多的人能够从网页上检索、收集、处理和管理信息。然而,仅仅依靠关键词检索这种方法,要想从大量非结构化的、根据人类理解而非直接处理的HTML语言写成的网页中搜索到有效信息,其检索结果是非常不充分的。可以把HTML网络转换成语义网络的工具就叫作本体提取器(ontology extractor),其自动提取本体的流程主要有六个步骤:准备、转换、聚类、识别、完善和修正。本体自动提取的工具主要是OntoSpider,由香港中文大学的Timon C.Du教授等设计。OntoSpider可以有效地从HTML网络中提取本体。OntoSpider对以术语、超链接和存在于网页的标签等形式存在的信息进行一系列由上述六步骤构成的半自动化的本体提取过程,提取出的本体可以为实际应用提供大量结构化的相关信息,并且有利于比较和分析的有效进行。[27]
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。