语义数据自动标注是指使用计算机技术自动表达待处理对象的语义内容。本书中待处理对象的语义内容主要指语义概念、语义关系等。自动语义标注一直是AI领域的重要研究问题之一,现在研究重点集中在Web资源的语义标注,目前大多采用机器学习和基于模式的方法,由于它们是基于统计概率或专家经验的,其精确度受限。本体标注是指基于已有本体或语义资源对本体添加概念、类、关系等语义信息。本体标注问题主要是对共享概念的形式化说明进行语义信息及实例添加。
现有本体标注方法主要包括GATE、Text20nto等。其中,Text20nto对中文的支持表现乏善可陈。GATE中的本体标注分为基于本体的OAT(Ontology Annotation Tool)手工标注和基于Gazetteer(地理词典)、基于分类器(机器学习)以及两者混合的自动本体标注。
GATE以基于本体的信息抽取(OBIE)形式进行自动本体标注。结合机器学习和基于规则的方法,采用自主开发的基于Sesame2和OWLIM3详细、正确的语义资源。
TEXT20NTO源自KAON(Karlsruhe Ontology),是一个基于JAVA的开源本体学习工具。Text20nto的自然语言处理部分依赖WordNet,而WordNet可支持中文。尽管理论上Text20nto也应对中文具有较好的标注能力,但目前其对中文的支持仍较为薄弱。因此该工具主要用于德语和英语语料处理。在一定程度上可以实现概念、关系、相似度等的自动抽取和本体元素的自动获取。
典型的本体标注流程是,首先根据语料库分析文档结构,然后依次进行语言预处理、命名实体识别、进行本体查询、基于本体的信息抽取、充实本体,最后以RDF/OWL格式输出。
ISO组织提出了语义标注国际标准,其中语义标注框架第3部分命名实体和第4部分语义角色,对命名实体标注方式、语义关系类别、语义关系的自动标注提供了重要的借鉴。(www.xing528.com)
国内学者李娟子论述了自动语义关系标注的框架和实现方法。郑莉、史元春等学者起草的中国网络教育技术标准CELTS-3.2学习对象元数据的XML绑定规范,为中文语义关系自动标注提供了标准。
语义数据自动标注与信息自动提取、语义信息自动标记方法相近,都需通过命名实体识别进行。语义数据自动标注方法可分为两类,一类方法是在文本对应本体中进行概念实例识别。另一类方法是从文本中的实例进行自动本体扩充。
有学者提出利用本体推理对本体概念分层,以获取的本体顶层概念为机器学习算法的分类标准进行命名实体识别[19]。然后通过实体概念求精,指代消解方法生成语义。1987年至1997年的MUC(Message Understanding Conferences)、2000年ACE(Automatic Content Extraction)中对于事件提取当作领域依赖的场景模板填充任务,研究集中于如何使用词法和语法规则来进行事件模式匹配,以及如何应用无监督机器学习方法自动获得时间提取模式。
SRL(语义角色标注,Semantic Role Labeling)是一个对谓词参数进行识别及语义标签分配的任务[20]。伴随着丰富的标注资源的建立以及多次国际评测的开展,语义角色标注任务得到了较全面的研究,其中最主流的研究方向是基于句法成分的、使用机器学习方法将任务转化成分类问题来解决,长期以来,国内外学者在特征工程的选择上做了不少详尽的研究和成果,特别是英文SRL在实际事件提取任务中已取得较好的效果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。