2.4.5 知识组织体系的组织
所谓知识组织体系(Knowledge Organization System),作为一定领域内的对象或概念及其关系的结构化集合,对各层次信息资源按照知识结构进行描述、连接和组织,使我们不再仅依赖信息资源的简单特征,而是根据自己的知识需要和一定的知识体系来发现、确认、检索和组合相关的信息内容,从而方便地构成新的应用知识。知识组织体系是任何信息组织体系的核心构件。
从网络信息资源组织的角度,有人将现有各种知识组织体系分为三个层次,它们在结构、复杂性、功能等方面存在明显的差异:
词汇表(Term List),强调概念的定义,一般不涉及复杂语义关系和分类结构,例如规范档、术语表、字典、地名表等。
分类聚类体系(Classification/Categorization),强调概念间的层级聚合和类别体系,例如主题词表和分类表。
关系列表(Relationship List),强调表现概念之间的关系,例如叙词表(Thesauri)、语义网络(Sematic Network)和本体(Ontology)。
在网络环境下,知识组织体系本身也是一种数字化信息,可用计算机可识别的开放方式定义、描述、标记和传递,并提供利用知识组织体系链接和组织上述信息资源的技术机制,促进用户及其代理系统对它们的准确解析和运用,保障不同体系间的交换、映射和复用。
1.XTM(XML Topic Maps)语言
主题图(XML Topic)可代表特定主题概念体系(例如主题词表),也可是一定资源集合主题内容的结构化表现(例如百科全书主题索引或网站结构图)。主题图独立于应用技术平台,可描述所涉及的主题词汇、主题间关系以及主题与具体资源的链接,可“标引”信息资源并建立相应索引或交叉参照,还可链接复杂主题范围的分布式资源来建立虚拟知识体系,可通过主题概念与资源的不同链接在同一资源体系上建立面向不同主题体系或不同用户的资源界面。(XTM)就是基于ISO3250标准来定义用XML语言描述和标记主题图的标准方式,所形成的主题图称为XML主题图文件,从而用计算机可识别的开放方式标记主题词表、叙词表及语义网络。XML用主题代表具体的实体或概念对象,这些主题可被一定信息资源描述、讨论或提及,XML规定这些主题在主题图中具有唯一识别符号(ID)、具有一个基准名称(baseName)、可出现在不同的用URL表示的信息资源里,主题可通过一定角色与其他主题发生语义关系,例如类属关系、实例关系、逻辑关系及其他语义关系,这些关系可作为特殊主题在主题图中定义。因此,XML主题图就是用XML标记的一组主题及其相互关系和这些主题所链接资源的集合,一个XML主题图可被用来以不同形式描述和链接不同资源集合。反之,同一资源集合也可被不同XML主题图以不同形式描述和链接。
2.RDFS(RDF Schema)语言
我们已经介绍RDF语言标记和描述元数据的方式,但元数据元素间及其属性间可能具有复杂的语义关系以及取值限定。W3C通过RDFS(RDF模式语言)定义用RDF/XML来描述元数据模式及元数据关系的标准方法。从RDFS角度,任何元数据模式涉及一系列概念,这些概念往往组成一个层级化的概念类体系,具体元数据值只是某个概念类的实例。这些概念类还具有一定属性,这些属性间又可能有一定的层级关系。RDFS提供对它们的标准定义工具,例如,rdf:type定义了两个最基本的类或概念属性,rdf:SubClassOf定义概念类间的类属关系,rdf:SubPropertyOf定义属性间类属关系,rdf: range和rdf:domain定义属性所允许的取值范围和应用类别。(www.xing528.com)
利用RDFS语言,元数据设计者可用计算机可识别方式定义元数据的复杂类别体系和语义关系体系,所形成的元数据定义称为RDF元数据模式。这些模式可方便地被具备XML处理器的系统识读和解析。当发现某个元数据时,即使事先不知道其意义和关系,也可调用被链接的RDF元数据模式来理解和解析;而且,人们可同时链接和利用多个分布的RDF元数据模式来多角度、多层面地描述资源,可以共享和重用这些RDF模式,甚至可利用若干RDF模式来方便地定义新的RDF模式,从而使元数据的定义和利用更具灵活性和可扩展性。
3.Ontology(本体)标记
所谓本体(Ontology),指特定应用领域公认的关于该领域的对象及对象关系的概念化表述(这里并不表示哲学上的本体论)。本体包含以下组成部分:
本领域对象类的层级体系,即不同对象类间存在is_a,kind_of,part_of等关系,父子类之间往往存在继承关系。类别间往往存在复杂的逻辑组合关系。
●对象类的属性及属性取值限制,这些属性由具体对象类决定,可按照层级关系继承,具有取值限定,并具有关于交换性、对称性、可传递性等的规定。
●语义关系体系,即对象类之间的逻辑相互关系,例如,Caused_ by,Usedby等。某些逻辑关系只能存在于特定对象类之间。
●关于对象类及语义关系的推理规则,例如IF_THEN规则,全称量化规则和存在量化规则,属性选择性继承规则,对象类组合规则,逻辑关系推理规则等。这些规则往往用谓词逻辑等表示。
在一定领域内往往存在层级化的本体体系,下层本体将自己的概念类定义为上层本体某个概念类的子类来继承上层本体;本体还可直接引入另一本体中的某些概念类,并可予以语义限制、属性限制、取值限制、重命名、与当前本体中某个类组合等方式进行重定义。另外,还可将元数据元素引入作为本体的概念类或某概念类的属性集。
本体通过计算机可识别的语言定义和标记后成为显性知识,可用来在信息系统中表征和交换知识组织体系,并可被知识代理利用本体中的关系和规则进行自动解析和推理。实际上,这就是SematicWeb的目标。
目前对本体进行定义标记主要有两种方式,一种是通过扩展HTML语言,例如SHOE(Simple HTML Ontology Extension);另一种是采用RDF/RDFS语言,例如OWL。这些语言提供关于概念类、概念类属性、语义关系和推理规则的定语语句及语法形式,并定义若干最基本的顶层概念类、属性类别、关系类别和推理规则。利用这些工具,可以定义标记自己的本体,利用这些本体对信息内容进行语义标注,从而在智能代理支持下实现数字化信息的智能检索和组织。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。