如前所述,未登录词处理在实用型分词系统中的地位举足轻重。在考虑自动分词系统的总体方案时,那些能够大幅度提升未登录词识别性能的分词方法,一般来讲,也将提高分词系统的总体性能。
在未登录词识别中,对第一种未登录词——新词语的处理,一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。处理第二种未登录词——命名实体的做法通常是:首先依据从各类专有名词库中总结的统计知识(如姓氏用字及其频度)和人工归纳出的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度之后,利用对该类专有名词有标识意义的紧邻上下文信息(如称谓)、全局统计量和局部统计量,进行进一步的鉴定。
命名实体识别(named entity recognition,NER)任务是分词任务、词性标注任务的基础。命名实体识别精度直接影响了分词任务、词性标注任务完成的质量。同时,因为分词系统会在初步分词和词性标注的基础上加载命名实体识别模块来完成未登录词的标注任务,所以前期的分词和词性标注识别精度又会影响命名实体的识别。由于词语的复杂程度不同,在命名实体识别中,时间表达式和数字表达式的识别比实体名称的识别更容易。
实体名称中组织机构名称会涉及人名、地名和组织机构名称的嵌套,因此组织机构名称识别要建立在人名、地名识别的基础上。例如,“北外中文学院党总支”这个表达方式嵌套了两个组织机构名称的缩略形式“北外(全称北京外国语大学)”和“中文学院(全称中国语言文学学院)”。“宋庆龄儿童基金会”中嵌套了一个人名“宋庆龄”。
已有的工作涉及了四种常见的命名实体:中国人名的识别(张俊盛等,1992;宋柔等,1993;孙茂松等,1995)、外国译名的识别(孙茂松等,1993)、中国地名的识别(沈达阳,1995)及组织机构名称的识别(Chen and Lee,1994;张小衡,1997;等)。“从各家报告的实验结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之,组织机构名称识别效果最差。而任务本身的难度实质上也是顺着这个次序由小增大的。”(孙茂松、邹嘉彦,2001)
1991年Rau[2]发表了国际上第一篇有关文本中识别公司名称研究的论文,是命名实体识别工作的起点。目前命名实体识别的解决方案主要分为两种:一揽子解决方案和个别解决方案。一揽子解决方案就是将所有的命名实体按照基于类的语言模型进行识别,适用于所有类型的命名实体。组织机构名称是其中的一类识别对象。个别解决方案,则是针对某一个类型的命名实体,各自建立识别模型和识别方法,采用一对一的解决方法。对于组织机构名称,则采用专门的组织机构名称识别方法。无论哪种方式,命名实体识别取决于实体本身的特征和实体所在上下文的特征,不同类型的命名实体识别的特征是不一样的。因此,在命名实体识别中,通常每一类命名实体都有自己的统计模型以及特征函数。传统的识别方法有基于规则和基于统计的机器学习两类。
基于规则的方法是命名实体识别中最早使用的方法。这种方法一般首先要由语言学专家手工构造规则模板,然后衍生出规则库。基于规则的方法一般需要建立一个计算机可读的词表,命名实体识别的过程就是在词表和规则库中查找的过程(Ralph et al,1995;Collins et al,1999;Blum A et al,1998)。
在30年的命名实体识别研究中,统计语言模型在偏向应用的自然语言处理系统中起了关键的作用,统计方法甚至在整个自然语言处理领域中曾经占据了主导地位。具体来说,常用的统计语言模型包括隐马尔科夫模型(hidden Markov model,HMM)(Bikel,1997)、最大熵模型(maximum entropy model,MEM)(Borthwick,1998)、决策树模型(decision tree model)、条件随机场(conditional random field,CRF)(McCallum and Li,2003)、支持向量机(support vector machine,SVM)(Asahara,2003)等。也有将两种技术相结合的识别尝试(黄德根,2010)。命名实体识别任务几乎成了各种形式的有指导学习的实验沙盘。目前所见报告中最好的识别效果精确率达到94.83%,召回率达到95.02%。
近些年来,深度学习(deep learning)在计算机视觉、图像处理领域取得了巨大的成功,而且在自然语言处理领域也取得了很大的进展。深度学习是机器学习(machine learning)的一个新的方向,它被引入机器学习使其更接近最初的目标——人工智能(artificial intelligence,AI)。目前,深度学习已经成为命名实体识别的主流技术。简单来说,深度学习模型通过逐层提取外部输入数据的特征,通过非线性激活函数从数据中学习复杂特征,完成多层神经网络的训练和预测任务。目前,在命名实体识别领域中最流行的深度学习模型是卷积神经网络(convolutional meural network,CNN)和循环神经网络(recurrent neural network,RNN)。由于前者受到窗口或卷积核尺寸的限制,在包括命名实体识别在内的自然语言处理(natural language processing,NLP)中的应用都要少于后者。
汉语的命名实体识别面临的困难远远大于英语、西班牙语等语言,其识别研究仍然处于未成熟的阶段,我国的语言信息处理专家一直在为识别精度的提高而不断努力。中文命名实体识别方法多采用“统计+规则”方法,即统计模型和识别规则相互结合。代表性的中文命名实体识别方法如下。
(1)规则和决策树相结合。该方法在MET-2测试数据上F-1值达到91.00%(Chua,1998)。
(2)上下文模型和形态模型结合,应用词性、语义标记和命名实体列表。该方法F-1值达到86.38%(Yu,Bai and Wu,1998)。
(3)基于类的统计模型与各种知识(包括姓氏表、同义词等)相结合。该方法在IEER-99测试集上F-1值达到84.61%(WU Yet al,2003)。
(4)HMM词性标注与具优先级别的匹配规则结合。该方法在参加2004年863命名实体识别评测中,系统的精确率、召回率、F-1值分别达到了81.93%、78.20%、80.02%(向晓雯、史晓东等,2005)。
(5)NTU系统用统计模型识别人名,用规则识别地名和组织机构名称。该方法在MUC-7上评测F-1值达到79.61%(Chen,1998)。
(6)统计和词性相结合。该方法召回率达到89.90%,精确率达到71.50%,F-1值达到79.65%(庄明等,2004)。
(7)基于分类,上下文模型和实体模型结合。该方法在MET-2测试中F-1值达到81.79%;IEER测试中F-1值达到78.75%(Jian Sun et al,2002)。
尤其值得一提的是,姜维等在《人民日报》半年语料上对几种通行命名实体识别方法进行测试,其结果见表2-3。
表2-3 几种通行命名实体识别方法测试结果(姜维等,2007)
其中基本HMM模型、基本最大熵模型是未使用前缀、中缀、后缀角色的最基本分类器。而HMM模型和最大熵模型则使用了这三种标记信息。混合模型以HMM模型与最大熵模型作为序列标记器。从表2-3可见,混合模型的效果相对较好。
在个别解决方案方面,过去的一些研究主要集中于某一领域内的组织机构名称识别,如金融公司名、高等院校名。前者是组织机构名称中的热点,后者结构规则较为清晰。采用的方法主要基于规则,基于纯粹统计的方法并不多,统计中或多或少会引入一些规则。而近来一些研究引入了统计学习的许多模型,采用“统计+规则”的方法进行识别。代表性的识别方法和成果如下。
1.规则模式匹配
规则模式匹配主要靠计算语言学家的语言学知识经验,手工构建大量的上下文敏感推导规则实现。
(1)文献(张小衡等,1997)对组织机构名称,尤其是中文高校名称的组成和特征进行了深入的分析,并采用基于规则的方法对中文的高校名称进行识别,取得了很好的效果,在600多万字的测试集上精确率和召回率分别为97.13%和96.19%。
(2)文献(王宁等,2002)综合考虑了公司名的结构特征和文本上下文信息,建立了6个数据库,包括用于公司名识别的知识库、公司名后缀库、公司类型名库、公司名禁止词性库、公司名完全禁止库和公司名不完全禁止库,并提出了一个基于两次扫描过程的识别策略,实验正确率和召回率分别为97.30%和89.30%。(www.xing528.com)
(3)文献(Chen and Chen,2000)在3万多个新闻文本上,采用规则法研制的NTU系统,封闭测试的精确率、召回率、F-1值分别为85%、78%、81.3%;开放测试的精确率、召回率、F-1值分别为61.79%、54.50%、57.92%。
(4)文献(Sun,2002)基于分类,结合上下文模型和实体模型,在IEER测试集上精确率达到76.79%,召回率达到59.75%。
(5)文献(罗智勇等,2001)提出了一个专命的一体化识别方法,从语料和专名表中统计和分析了各种专名的内部构成,运用27条规则对组织机构名称进行识别,在小规模的语料上测试中取得了不错的效果。
(6)文献(Peterson,1999)将组织机构名作为命名实体的七种类型之一考虑,通过模式匹配进行组织机构名称识别,在含有1117个命名实体的测试集中召回率和精确率分别为46.00%和53.00%,在含有254个命名实体的测试集中召回率和精确率分别为17.00%和29.00%。
组织机构名称大多都有非常有特点的通名作右边界,组织机构名称的这种规律使得人们很容易就想到使用规则的方法来识别。虽然在封闭测试中,能达到90%的精确率和召回率,但是在开放测试中,仅能达到60%,远远不能满足人们的实际需求。这是因为目前组织机构名称的规则特征和领域相关,企业名、管理机关名、学校名等的用词、用字和结构规则差别很大,而基于一个较小规模随机抽取的语料获得的规则知识,则往往比较片面,在一个领域内都无法全面覆盖,更无法推向其他领域。另外,在以往基于规则的识别系统中,其规则制定一般带有较强的主观色彩,一旦调查不充分,或语言学背景不强,规则系统的性能都会大打折扣。因此,我们必须在一个领域内覆盖全面的语料,针对整个组织机构名称和不同类别的组织机构名称制定相应的规则。
制定规则的工作量很大,而且需要制定者具备深厚的语言学背景。但是一旦我们具备这样的条件和能力,构建出了这样一个规则系统,对于组织机构名称识别来说这无疑是一个基础性的贡献。如果我们将理性主义和经验主义结合,借助统计和计算机技术,获得一些规则知识,则很可能比完全依靠简单统计和机器学习获得的规则系统更科学可靠。
与规则方法相比,统计方法不是由人工确立一些规则来判别命名实体,而是依赖大规模的语料库,通过对标注语料的训练、模型,从语言现象中学习,自动获取语言学知识。与提取规则相比较,带标注语料的构建代价相对要小很多,对构建者的计算语言学的知识要求也比较低。基于统计方法的关键在于建立一个合适的统计模型,然后利用大规模的真实语料对模型中的基本参数进行训练。另外语料库的标注质量和规模对模型的最终训练结果也有很大影响。一般来说,基于统计的方法要比基于规则的方法效率高。
基于规则和基于统计的方法各自均存在优缺点,但两者并不矛盾。语言规则来自语言学家对大量语言现象的研究归纳和长期的实践检验,比完全基于语料统计出的规律具有更强的可靠性。而统计方法正可以弥补语言规则在处理例外现象方面的不足。在统计方法中,构建的模型以及模型的训练过程往往包含了许多隐含的语言学规则。在许多规则方法中,在规则中加入概率统计信息,会比纯规则的方法更加灵活。基于这种思想,现有的许多方法都结合了规则与统计的方法,而这些规则与统计相结合的混合方法往往比单一的方法更有效,正确率更高。
2.基于角色标注
(1)文献(Zhang & Liu,2003)以110万词语料库为基础,基于角色标注,封闭测试的F-1值达到81.63%。
(2)文献(俞鸿魁等,2003)提出了一种基于角色标注的组织机构名称自动识别方法。其基本思想是:根据在组织机构名称识别中的作用,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现组织机构名称的识别。通过对大规模真实语料库的封闭测试,这种方法取得了接近90%的召回率和精确率,在开放测试中,精确率在88%左右。
3.最大熵模型
(1)文献(冯冲等,2006)采用主动学习策略的最大熵模型训练算法,F-值达到82.00%。
(2)文献(Xiong,2006)采用多层最大熵模型,精确率为82.1%,召回率为53.80%,F-1值为65.00%。
最大熵模型的优势为:在很多不同的任务领域中都能取得较高的精确率;该模型可以跨距离地选取特征;可以准确为变量间的细微依赖关系建模。
但最大熵模型也有缺点:基于最大熵模型进行组织机构名称的识别过于依赖标注数据。组织机构名称的识别是一个和应用领域密切相关的任务,例如在国际新闻语料上训练出的模型用到金融领域中就很难保证识别效果。因此对标注语料的依赖已成为制约最大熵模型走向真实应用的主要因素之一。
4.条件随机场
文献(周俊生等,2006)提出了一种新的基于层叠条件随机场模型的组织机构名称识别算法。针对各粗分词串,作者先在低层进行人名与地名的识别,然后将识别结果传递到高层模型,为高层组织机构名称条件随机场模型对复杂组织机构名称的识别提供决策支持,最后采用约束的前向后向算法对识别的结果进行可信度计算。在大规模真实语料的开放测试中,精确率达到88.12%,召回率达到90.05%。
5.隐马尔科夫模型(HMM)
文献(郑家恒等,2002)基于统计的方法,利用隐马尔科夫模型在粗切分的基础上进行中文机构名称的识别,在近2万字《人民日报》下载语料集上测试,精确率为89.00%,召回率为94.50%。
6.多重统计模型与规则结合
黄德根(2010)提出了一种基于支持向量机和条件随机场的双层模型进行的中文机构名识别方法。该方法第一层模型采用条件随机场识别简单机构名,并将识别结果传至第二层,以辅助下一步的识别;第二层采用基于驱动的方法,将支持向量机和条件随机场结合进行复杂机构名的识别;最后将两层的识别结果合并,并通过一个后续处理对置信度较低的识别结果进行修正。大规模真实语料的开放测试表明,精确率达到94.83%,召回率达到95.02%,证明了该方法的有效性。
从以上研究结果可以看出,似乎中文组织机构名称识别的精确率已经取得了不错的结果,但是客观来讲,有以下两方面值得引起重视:一方面,这些测试是在一个领域单一语料集上进行的,如果在一个通用的领域进行识别,精确率必然会大打折扣;另一方面,上述的一些实验所用语料规模较小,识别出来的组织机构名称只有100多个,甚至只有几十个,结果的偶然性很大。
因此,从这两点看来,组织机构名称识别的精确率还是被过高估计的,特别是在开放测试中,精确率和召回率往往只有60%左右,例如,在2004年度国家863计划中文信息处理与智能人机接口技术评测的命名实体识别评测结果显示:组织机构名称识别的召回率仅为57.41%,精确率仅为64.64%。这也是实验结果与实际应用差距较大的原因。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。