【摘要】:基于统计方法的领域概念抽取一般根据词语的出现频率设置合适的阈值来抽取出概念,然而抽取出的概念仍需人工进行判断。针对以上问题,本文提出基于维基百科进行领域本体的半自动构建方法。由于维基百科专业覆盖面广,内容准确度高,同时其结构良好,拥有较为完善的目录系统、信息表格、条目定义以及丰富的超链接,本文选择维基百科作为计算机领域本体的概念及概念关系来源。
本体构建中最重要的是如何获取概念和概念之间的关系。自然语言处理是从非结构化的文本中检索和提取信息,例如名词,因此可以将提取的信息作为本体中的概念。由于领域概念通常具有特定的语言结构和模式,因此可以将符合概念模式的字符串作为目标,从而实现概念的抽取。虽然上述方法在语义消歧和概念抽取的准确率上具有优势,但其通用性较差,对于不同的领域需要建立不同的语言规则,并且还要解决多个规则间的冲突。基于统计方法的领域概念抽取一般根据词语的出现频率设置合适的阈值来抽取出概念,然而抽取出的概念仍需人工进行判断。词汇句法模式是指通过分析领域相关文本,总结出一些频繁出现的语言模式作为规则,然后判断文本中词的序列是否匹配某个模式,利用该方法可以抽取上下位关系。层次聚类算法动态地获取文本中的术语层次结构,聚类的结果就是概念间的分类关系。另外,文本挖掘中的关联规则也被用于关系抽取。由此,出现了用于本体的自动及半自动构建的工具。然而以上方法及技术大都针对通用本体的构建,难以应用在特定领域;基于词频或机器学习方法进行概念抽取、基于模式与规则对概念关系进行挖掘,很难发现特定领域内隐含的概念及其之间的关系。针对以上问题,本文提出基于维基百科进行领域本体的半自动构建方法。由于维基百科专业覆盖面广,内容准确度高,同时其结构良好,拥有较为完善的目录系统、信息表格、条目定义以及丰富的超链接,本文选择维基百科作为计算机领域本体的概念及概念关系来源。借助JWPL工具自动获取概念及其属性间的关系,生成本体概念层次并将其映射到OWL语言,最终形成了一个完整的本体半自动化构建模式。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。