首页 理论教育 组织机构名称识别的难题及优化方案

组织机构名称识别的难题及优化方案

时间:2023-07-05 理论教育 版权反馈
【摘要】:目前还没有资料显示已开展对组织机构名称的动态观测工作。所以为组织机构名称的识别提供资源是大势所趋。基于中文信息处理的现状,为组织机构名称识别建立资源和知识库成了我的研究工作重心。组织机构名称识别是命名实体识别任务中最困难的一部分。在本章引用的各种识别测评中,组织机构名称的识别得分最低。

组织机构名称识别的难题及优化方案

在解决这一问题的过程中,我们意识到要想提高组织机构名称识别精度,需要加强相关资源建设和规则知识研究。目前还没有资料显示已开展对组织机构名称的动态观测工作。从语言规范化角度看,我国至今还缺乏一个统一的组织机构名称规范方案,这为信息处理社会管理等方面带来了困难。于是我们建立了一个带有分布属性的数据库。基于这个数据库,我们发现了与社会、管理相关的更多学术价值。

组织机构名称识别实际上是要解决以下问题:哪些词语能作为组织机构名称的一部分,哪些不能?哪些词语序列应标注为组织机构名称,哪些词语序列不应标注为组织机构名称?等等。实际上这些都涉及组织机构名称根本性的界定和语言问题。因此一个好的组织机构名称识别模块,“除了要应用成熟的技术,还要应用相关的语言知识。要继续提高组织机构名称识别精度,我们要使已有的组织机构名称识别机制更加精细化,研究各种组织机构名称与其他实体名称之间的冲突处理机制。”(孙茂松、邹嘉彦,2001)

与其他词语成分的语言研究相比,很多组织机构名称的基本问题没有得到应有的重视,没有得到很好的研究和解决。黄昌宁先生在回顾中文分词十年之路时曾提到:“奥运会宋庆龄基金会算不算机构名?”(黄昌宁、赵海,2007)这说明组织机构名称该如何界定,学界还存在不小的困惑。再如,真实文本中的组织机构名称分布状态如何?词语序列如何构成一个合乎语言规则的组织机构名称?组织机构名称全称缩略为简称应遵循哪些规律?等等。这些问题总结起来,就是组织机构名称的界定、成分、结构和缩略规则。我们认为有必要重视对组织机构名称的这些根本问题的研究,为组织机构名称识别提供语言知识和资源。在中文分词中,资源的重要性不言而喻,最大匹配算法[3]等需要一个好的词表,而基于字标注[4]的中文分词方法又需要人工加工好的深度学习。所以想研究中文分词,第一步需要解决的就是资源问题。所以为组织机构名称的识别提供资源是大势所趋。这些资源应是基于大规模真实语料的,是基于统计和语言学理论的,这样才能保证其客观性和实用性,才能满足当前中文信息处理的需求。中文信息处理的一个重要任务就是将语言学和中文信息处理的理论与方法相结合,面向识别的实际需求,建立一个大规模真实文本的语料库。在此基础上,对组织机构名称进行研究,并将研究成果形式化,供组织机构名称识别研究者使用,是这个语料库的主要研究方向之一。

基于中文信息处理的现状,为组织机构名称识别建立资源和知识库成了我的研究工作重心。而在深入其中的过程中,我又逐渐意识到了这些资源具备的更多社会价值。这即是本书成书的缘起。

不同语言的特点导致了组织机构名称识别方法的差异(宋柔,2001)。比如,英语单词间有间隔,且组织机构名称采用首字母大写,识别难度很小;德语中单词有间隔,但无论专有名词还是普通名词都一律大写,所以无法直接识别组织机构名称;汉语、泰语单词间无间隔,所以组织机构名称的识别还受到分词结果的制约。尤其对汉语来说,困扰汉语自动分词的一个主要难题就是未登录词的识别,而组织机构名称又是未登录词的一部分。如果文本中存在未被识别的未登录词(包括组织机构名称),会造成难以弥补的分词错误,直接影响到汉语分词及整个句法分析的正确率。汉语较英语有一系列难点,如没有首字母大写这一特征,词间无空格,不同领域组织机构名称有不同的结构,很少有专供组织机构名称识别的语料库等。在研究组织机构名称识别时,我们可以借鉴其他一些与汉语有类似难点的语言。譬如,针对汉语词间无空格的特征,可以借鉴具有相同特征的泰语,还可以借鉴德语中所有名词都大写的经验,用于识别组织机构名称。

从目前国内中文命名实体识别的研究结果上看,人名和地名的识别效果要比组织机构名称好很多,人名和地名的识别方法也和组织机构名称识别有很大的不同,这和人名、地名与组织机构名称在构词规律上的不同有很大的关系。

中文人名识别的研究是三类专有名词中最早开始的,也是最集中的,所取得的效果也最好,这和中文人名的构词规律有关。从历史上看,中文人名的姓氏用字是比较复杂的,如台湾出版的《中国姓氏集》收集姓氏5544个,其中单姓3410个,复姓1990个,三字姓144个。但这些姓氏到现代大部分已经不再被使用,现代中国人的姓氏趋于简单,用字相对集中,这为自动识别中文人名提供了方便。并且,中文人名中姓氏和名字用字相对集中,其概率分布符合Zipf定律,极少数高频姓氏和高频名字用字覆盖了大多数的人名。例如,刘开瑛从采集的真实语料中进行统计发现:前15个高频姓氏的累积覆盖率达50.80%,前65个高频姓氏的累积覆盖率达到80.40%,前114个高频姓氏的累积覆盖率达到90.00%;而对于名字用字,前71个高频姓氏的累积覆盖率达到50.80%,前410个则达到90.00%,前1141个的覆盖率达到了99.00%(刘开瑛,2000)。中文人名构词的规律性较强,姓氏和名字用字相对集中,因此中文姓名的识别多采用概率统计加规则的方法,利用人名姓氏作为启发信息,采用这些方法进行人名识别的精确率和召回率大多数达到90%。

中文地名的识别与中文人名的识别相比要更复杂,但地名相对比较固定,总体来说,地名是有限的,有的分词系统甚至采用地名库穷举的方法来进行地名的识别,但这种方法对于面向真实文本的系统来说,还是不大可行的。中文的地名构成有以下特点:一是一部分高频出现的地名,如“北京”“上海”等已经在包含在词典中,这部分地名在总的地名中占很大一部分;二是很大一部分地名中包含地名特征词这样的启发信息,而这些词相对比较集中。另外,地名识别还可利用地名库、地名词典这样的资源。因此,很多地名识别的研究采用“概率统计+规则”的方法,精确率和召回率也在90%左右。最近一些研究的趋势是将统计学习的方法引入地名识别当中,包括最大熵模型、隐马尔科夫模型、神经网络和支持向量机以及一些混合模型的学习方法。

组织机构名称识别是命名实体识别任务中最困难的一部分。在本章引用的各种识别测评中,组织机构名称的识别得分最低。在国家863计划中文信息处理与智能人机接口技术专题的支持下,汉语的命名实体识别评测进行了三次,其中前两次(分别于1995年、2003年举行)都是与汉语分词标注结合在一起的,2004年单独对命名实体进行了评测。其中组织机构名称的评测结果依然最差。

为什么组织机构名称识别效果难度这么大呢?主要有以下两个原因。

一方面,组织机构名称具有量大、低频、层出不穷的特点,因此组织机构名称是未登录词的主要部分。我们不可能无限制地扩大词典规模来识别组织机构名称。组织机构名称识别的对象绝大多数为未登录词。组织机构名称识别是命名实体识别任务中的重点。以MUC-7评测语料为例,组织机构名称占命名实体总数的46.0%,人名和地名两类实体分别仅占22.0%和32.0%。英文命名实体识别任务中组织结构名的比例为79.8%;中文命名实体中组织机构名称比例更高,达80.9%。(www.xing528.com)

另一方面,未登录的组织机构名称的识别比未登录的人名地名的识别要难得多,归根到底还是由组织机构名称自身的特点造成的。

(1)缺乏形式标记。汉语是分析型语言。书面汉语的单词基本上没有形态变化,而且一个方块字接一个方块字的文字书写方式决定了中文的词语没有形式间隔,而汉语词汇缺乏形态标记,也决定了组织机构名称识别天然的困难。而拼音文字如英语中的专有名词首字母大写和词语间隔书写都使组织机构名称识别问题变得相对容易。如:Microsoft Corporation and Lenovo Group(微软公司和联想集团)。

(2)与分词任务互相影响。将文字序列切分为有意义的词语序列后,才能对词语进行词性标记。而对文字序列意义的理解也决定了文字序列的切分形式,所以词性标记和分词实际上是互相影响的。如:“重言,而非行。”形式上“非行”可以表示为“非洲开发银行(hang2)”的简称。而这里实际上是“非+行(xing2)”。可见意义理解和分词相互影响。

(3)组织机构名称的长度极其不固定。中文的组织机构名称不像中国人名,一般为两三个字,最多不超过四个字,地名最多也只是三四个字组成。组织机构名称可以是一个词,如“联想”(联想集团,也可以是一个短语);其长度范围可以是两个字,如“央视”;也可以是几十个汉字,如“华中科技大学同济医学院附属协和医院肿瘤科第一研究室”。在我们考察的语料中,由十个以上的词构成的复合组织机构名称占了相当一部分的比例。组织机构名称长度的不确定,导致组织机构名称的边界很难确定,加大了组织机构名称识别的难度。较长的组织机构名称往往会被切成几个碎片,而较短的词又往往被识别为一个普通的词或被包含在一个文字串中捆绑识别错误。

(4)组织机构名称的简称用法对识别造成困扰。组织机构名称都可以有全称和简称两套指称方式。而在简称方面,有时不止一种简称方式。这些简称形式灵活,或是全称中的一部分,或是全称中几个语素的组合,或是词语和语素的混合,或是字母词语。如“中央电视台”,可以简称为央视、中央台、CCTV等。“联想集团有限公司”,可以简称为联想集团、联想公司、联想等。简称中通常不包含机构名、称呼词等对识别有重要作用的启发信息,如“上(海)交(通)大(学)”“全国人(民代表)大(会)”“中(央)纪(律检查)委(员会)”等。大量的组织机构名称简称的出现,使得本来已经十分困难的组织机构名称识别问题变得更加困难。实际上在语言经济原理的作用下,组织机构名称简称已经是组织机构名称识别任务中的主要识别对象。

(5)组织机构名称用词非常广泛,和普通用字用词无异,左边界无明显特征。中国科学院计算所研究人员对1998年1月《人民日报》语料中的10817个组织机构名称所含的19986个词进行统计,共计27种词,其中名词最多(9941个),地名其次(5023个)。用词如此之广泛,这是命名实体中绝无仅有的。最为严重的是,在这些词中有很大一部分词是未登录词,如大部分的企业字号。组织机构名称的用字用词和普通词语用字用词并无二异。如“军”“系”“室”等都是重要的组织机构名称右边界,可以作为组织机构名称识别的重要依据之一。但实际上系统会将“王子军”等识别为组织机构名称,而这样的识别错误正是由于组织机构名称字词的使用形式和普通词语的使用形式并无二异造成的。

(6)组织机构名称结构灵活,一般涉及地名、上级组织机构名称、人名的结构嵌套。如“中国银行湖北分行洪山支行”“北京语言大学应用语言学研究所”“宋庆龄儿童基金会”等。这和组织的来历直接相关。显然银行是特定的某一银行的某一分行的某一支行,研究所是某一地域里某一大学某一专业学科的研究所,有的基金会是为纪念某人创立的。这种结构特征实际上也是组织来历和层级关系的反映。所以组织机构名称的识别要建立在地名、人名等命名实体研究的基础上,这就决定了组织机构名称的识别精度势必小于或最多等于其他命名实体的识别精度。

(7)“组织机构名称的用词与结构规律和领域相关,不同领域间差别较大,所以组织机构名称识别系统的效果严重依赖领域”(李江波,2006),这也限制了系统在不同应用领域之间的移植。各类组织都有其独特的命名方式。例如,企业命名大多以地名开头,中间加上企业字号,如“金山”“全友”等,结尾一般都是“公司”“集团”类的普通名词。而机关团体类的组织机构名称则相对比较正规,一般以上级部门开头,结尾为“所”“部”“院”“委”等单字。序数词在一般组织机构名称中,很少出现,但是在军队、医院、学校类组织机构名称中,序数词却占有不小的比例。而且组织机构名称中还有嵌套的情况,组织机构名称中包含另一个组织机构名称,如“北京电影学院青年电影制片厂”。

总的来说,组织机构名称识别要比中文人名、地名的识别困难得多,识别的效果与人名、地名相比也有较大差距。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈