4.1.3 本体半自动建库
本体建库方法和本体建库工具的选择对本体建库工作至关重要,手工本体建库是一项繁琐、低效率的工作。本体建库工具提供了将概念转化为本体类或对象的功能,但并不能从资源中自动提取领域概念。而且对于特定领域,领域知识的获取和领域本体的构建通常需要领域专家和本体开发人员的相互合作。这种复杂性加大了本体建库的工作量。本体建库所需的概念和概念之间关系的提取成为影响本体技术推广的重要因素。
为了能够获取一种简单、高效的本体构建方法,国外的很多研究机构将自然语言处理技术和文本挖掘技术应用到本体的构建方法中,产生了一些利用领域文本语料来半自动构建本体的方法和相关技术,例如德国卡尔斯鲁厄大学AFIB的Text-To-Onto系统、中国台湾“中央”研究院的SOAT、日本研究机构的DODDLE、意大利研究机构的Symontos等。这些方法主要是通过对文本语料进行自然语言处理(包括词性标注、浅层句法解析、短语提取、领域关键词提取等),利用基于规则或统计的方法来自动抽取领域的相关概念和概念之间的部分关系,最后通过人工校验来修正结果。在人工构建本体时,经过校验后的机器处理所得到的结果加入到要构建的本体中,加快了本体的构建过程。目前国内在本体方面展开的研究才刚刚起步,并且专门针对本体的快速建模方面的研究不多,可用的建模工具也不成熟。
本体建库主要是指提取领域概念和领域概念之间的关系,前者对应于本体库中的类和实例,后者对应于本体库中的属性。有关领域概念提取的研究主要集中在如何从自由文本或者半结构化文本中提取概念。同时,语义词典、知识库也被作为工具用来辅助从文本中提取概念。语义词典、知识库甚至关系数据库也可以被直接作为领域概念提取的来源。领域概念之间关系的提取过程相比于前者更为复杂,可利用概念相似度计算和规则匹配等技术来提取属性之间的关系。可见,要提取领域概念和领域概念之间的关系,特别是对中文概念的提取,难度极大。无论什么工具和方法,目前,都存在一定的困难。通过计算机提取后,必须要有人工进行干预,验证其正确性、准确性、可靠性和可靠性,才能保证本体库的科学性,这就是本体建库的半自动过程。
1.领域概念的提取
当前易处理的数字化的文字数据主要以自由文本的方式存在,并且大量的文字数据需要首先转化为自由文本才能进行进一步的处理(如扫描图片),因此自由文本和半结构化文本成为领域概念提取的主要来源。从文本中提取领域概念主要运用到自然语言处理技术。根据自然语言处理技术在本体构建中的应用又可以进一步分为基于模式、基于关联规则和基于概念聚类的领域概念提取技术[11]。
M.A.Hearst给出了一种同义词模式的方法,用于自动寻找本体概念间的关系。该方法寻找与现有本体相关的概念,并判断它们之间是否存在词汇模式上的关联,这种关联就是概念间的关系。这种方法已在OnTo2Knowledge系统中得到使用,用来进行本体精练。此方法的不足在于错误率过高,生成结果需要专家进行验证。K.M.Gupta等人也提出一种利用模式生成本体的方法,从特定领域的文本中生成一个小型WordNet本体。生成的小本体能有利于快速开发该领域内的自然语言处理应用。
A.Maedche等人开发了基于关联规则方法的本体生成工具Text To Onto。该工具是一个集成环境,能从一个初始的核心本体生成满足要求的领域本体。生成的领域本体包含特定领域和与该领域无关的概念。领域无关的概念被去除,以保证领域本体内的术语能适应领域应用的需求。该方法的整个过程需要本体专家监督,学习过程需要循环进行。(www.xing528.com)
D.Faure的方法采用基于分层的概念聚类法,它的基本聚类器包含了一些词语固定搭配,这些搭配都由动词加介词的形式构成。该方法包含两个步骤:概念化和聚类。L.Khan等人使用聚类技术和WordNet从文本文档创建领域本体,创建过程自底向上。首先,使用一些聚类技术创建文档的继承结构,并确定它在整个继承结构中的具体位置。然后,利用WordNet和主题跟踪算法,为层次结构中的每个文档聚类分配适当的概念,从而形成本体。
基于词典的概念提取是利用机器可读的词典,从中抽取感兴趣的概念和关系,构建需要的本体。J.Jannink等人通过将词典数据转换为图结构来支持领域本体的生成。词典中的词称为中心词,词的解释称为定义文本,只考虑中心词和相互间有着多对多关系的定义文本。使用词典进行本体生成的一个明显优势是其中的中心词能够很容易地与定义文本区别开,这便提供了额外的信息允许分析中心词的类型。
基于知识库的概念提取是利用已经建立好的知识库,从中提取满足需求的本体。以H.Suryanto等人从知识库中导出本体的研究为例。该方法基于构成传统知识库的规则提出一种提取分类本体的方法。提取出的一个类是一组路径的集合,每条路径由一系列的规则构成,通过其中的任何一条路径都能推导出相同的结论。发现类的集合后,还需要进一步确定类之间的关系,一般考虑3种关系:包含、排斥和相似。对于给定的每个类,定量计算它和其他类之间的关系,以判断它们之间是否存在这3种关系。将提取出的类和关系组织起来,从而构成了本体。
也可以通过关系数据库来提取领域概念。这类方法的目标是从关系数据库中抽取相关的概念和关系构建本体。该方法包含5个步骤:①通过逆向工程获得关系数据模式中的关系、属性、属性类型、主键、外键和包含依赖等信息;②分析获得的信息,并使用映射规则得到本体的概念和关系;③模式转换,将概念组织为层次结构,发现原始模式中的附加关系,同时去除冗余信息;④评估、验证和精练本体;⑤数据迁移,是为了创建本体实例。
2.领域概念之间关系的提取
基于规则的概念关系提取方法是指通过分析领域相关文本,总结出一些频繁出现的语言模式作为规则,在进行概念分类关系的提取时进行预定义规则的匹配。常用的方法是,首先对文本进行词性标注,然后通过浅层句法解析技术获取短语,最后对识别出的短语进行规则匹配来获取概念关系。
如果在概念集合中存在非合成词语,词语之间没有可利用的规则,这时可以通过计算词语之间的相似度的方法来进行层次聚类,获取概念之间关系。这种获取概念之间关系的方法包含三个基本步骤:构建词空间和相似度矩阵为计算相似度做准备,计算概念相似度,利用层次聚类分析相似度计算结果中相关的词语,从而获得概念的层次结构。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。