5.3.3 本体分子知识组织模型
本体和本体分子技术为知识管理的处理提供了一种新的知识组织模式。本文提出“知识组织四层模型MRID”,其结构如图5-11所示。
图5-11 本体分子知识组织四层模型MRID图
1.元数据层
元数据(Metadata)处于四层模型的底层,元数据是描述数据的数据。如图5-11所示,流行的元数据有两种,DC和MARC。DC中一般包括tilte,description等。相比于纯文本,元数据具有更强的语义性。元数据的定义包含以下几层含义:
(1)元数据的目标是描述Web文档的特征,因此需要定义基本的描述元素,例如URI、标题、作者、日期、主题等,并给出相应的语义;为了便于不同系统之间共享和交换元数据,需要对元素集合及其语义标准化。
(2)元数据也是一种数据,因此需要采用一定的格式进行存储(包含于被描述文档的内部或者独立存储);元数据的语法格式也应该标准化,以便于共享和交换。
(3)元数据是机器可理解,以标准化的语义定义和语法描述为基础,具有良好的结构,便于计算机处理(提取、创建、检索等)。与此相反,Web文档本身主要以自然语言表达,虽然是机器可读的,但缺少显式的语义,目前难以被计算机直接理解和处理。
(4)元数据是应用相关的,可以用于Web文档的标识、集成、交换、检索等工作。(www.xing528.com)
在实际操作中,需要对数据源进行处理。这里讲的数据源不存在异构现象,均为TIF文件。OCR文件识别效率不够理想,要求将抽取的代价与数据项的作用结合起来考虑。在领域专家的指导下,进行元数据项的确定,并最终完成所有文件的元数据值的提取。当然,元数据项的设置也是建立在对领域特征的反复分析基础之上的。元数据层提取的成功与否直接决定本体构建的效率。
2.知识表示层
知识表示(Representation)位于模型的第二层,这里提及的概念模型的建立以及本体实例化均对应于该层。一旦知识被以人工或机器自动的方式获取,接着便需要将知识用本体语言表示出来(当然也应该提供一个检索知识的语言),这些都是本体系统应该具有的功能。
本体库的结构应与现实事件的逻辑结构保持一致。
3.推理层
传统的知识管理缺乏推理的能力。本体的推理(Inference)基于本体规则的制定,本体规则的制定依赖于领域专家和本体工作者的合作。基于本体的领域知识推理主要分为基于逻辑的领域知识检错推理和基于关系的领域蕴涵知识发现推理。
模型的推理方式可以根据系统的需要进行配置。可选择的推理方式还有:OWL推理,RDFS推理,传递推理,自定义规则推理,外部推理机等。Jena可以在创建本体模型的时候同时采用OWL推理。还可以通过获取OWL推理机,然后用该推理机作参数创建一个具有推理能力的本体模型。传递推理是指基于具有传递特性的属性进行的推理。这种推理比较简单,也很容易实现。RDFS推理基本上可以被OWL推理代替,OWL推理的推理能力更强。对于自定义规则的推理又比较复杂,需要完整的推理公理和规则的自定义。这种推理依赖领域于专家和本体工作者的领域认识。综合来看,外部推理机机制具有较高的效率。目前有很多开源的外部推理机,比如Pellet等。
4.动态知识层
动态知识是知识管理的难点。世间万物都是变化的,知识也不例外。要体现知识的变化,需要一定的参照物,也就是说需要一个知识环境。但是由于粒度的原因,RDF/OWL语言在描述知识的过程中没有提供知识的语义环境(Context),虽然RDF/OWL在描述静态知识方面有优势,然而在动态知识方面它却难以胜任。本体分子理论的引入可以解决这方面的问题。本体分子将静态知识作了一个本体分子的核,而动态知识围绕在核的周围共同构成一个本体分子。有效的将静态知识和动态知识区别开来。对于动态知识也有不同的理解,David Taniar和Johanna Wenny Rahayu对动态知识发现作如下定义:动态知识发现是指分布式系统中的每一个结点在即定时刻在给定目标集中查找那些最能满足某种特定需求的信息资源的能力。这种理解是从形态和分布上理解动态信息,而四层模型中的动态知识和静态知识是从内容上对知识进行的分类。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。