组织机构名称的规则知识对语言信息处理的重要性主要基于以下两点。第一,统计模型也好,机器学习也好,在面对真实大规模文本的时候,如果遇到数据稀疏和用词随机性问题,常常“巧妇难为无米之炊”。第二,印欧语言有形态标记、分词连写、大写首字母等,汉语、日语等与印欧语言不同,都是没有标记的语言和文字形式,如果单纯用印欧语言的命名实体识别方法,效果并不理想。
实验证明,在分词技术不变的基础上,对结构复杂的命名实体进行识别时加入规则知识,如内部结构规则、外部特征等,总体上召回率提高了6.4%,精确率提高了7.7%,调和平均值F-1值提高了7.5%。其中结构较复杂的组织机构名称的识别召回率提高得最多,达到40%,精确率持平,调和平均值F-1值提高了32.4%(廖先桃、于海滨,2004)。但该系统的不足之处在于,这种自动提取规则的方式只考虑到简单的词性序列和高频的用词特征。可以想见,如果能更进一步对规则进行更多研究,识别精度提高的幅度还能更大。
根据以上背景和实验情况,我们可以得出一个结论:语言学规则知识能很好地揭示组织机构名称尤其是复杂组织机构名称的内部结构、成分特征、上下文特征。这些规则知识的应用能直接提高组织机构名称的识别精度。
但关于组织机构名称规则的研究才刚刚起步。1997年香港理工大学学者张小衡、王玲玲的《中文组织机构名称的识别与分析》是这方面的开山之作。而2000年初出版的《中文文本自动分词和标注》一书中,山西大学刘开瑛教授仔细搜索1999年年底之前关于组织机构名称的识别与分析方面的文献,结果发现这方面的文献甚少。所以刘开瑛在写作“组织机构名称的识别与分析”一节时,主要内容就是《组织机构名称的识别与分析》一文。1999年至今,组织机构名称识别研究有了很多理论成果和应用系统,但组织机构名称结构规则研究依然还有很多空白。该文至今仍是中文命名实体识别研究的重要文献之一。该文基于1520个高校名,对组织机构名称的短语类型、定语特征、一般结构规律等进行了归纳。该文指出,组织机构名称是一种偏正复合式专有名词,同时是一类较为简单的偏正名词词组。由于考察对象仅为高校名全称,考察所得规则有限。
詹卫东(1999)在句法语义属性范畴基础上,对四类主要的现代汉语短语结构(np、ap、vp、dj)的组合规则进行了系统而具体的形式化描写。组织机构名称属于其中的定中式np。詹文主要针对的是一般短语,没有讨论专有名词短语。但是,詹文面向中文信息处理,研究短语结构规则的形式化规则库,在研究方法上对组织机构名称结构规则研究有借鉴价值。
李卫亮(2000)在1569个正确的企业名的基础上,对企业名的内部结构、上下文特征、字号进行了初步分析。
罗智勇、宋柔等(2001)为专名识别而研究了企业名的结构规则特征,统计得到四类企业名结构的语料分布如下:
①行政地名+字号[+企业经营内容说明词]+企业类型名,比例约为60%。
②行政地名[+企业经营内容说明词]+企业类型名,比例为20%~30%。(www.xing528.com)
③句首+字号[+企业经营内容说明词]+企业类型名,比例小于10%。
④其他。
后两篇论文均是对企业名的统计分析。企业名是组织机构名称中分布最多且形式最复杂灵活的一类,因此以上企业名结构统计分析对组织机构名称研究有重要参考价值。
雷静(2005)通过在互联网上搜索的上万个组织机构名称,对其构成进行细致分析。雷文将组织机构名称大致分为五个大类和若干小类,为每一类建立构成模式,其目的是通过“通名+规则匹配”进行组织机构名称识别。所分的五大类分别是团体、社团、民间组织,与竞技、技艺等有关的团队,教育科研组织,金融组织机构名称,其他企事业单位名称。每一类又细分了多个小类。雷文是不多见的组织机构名称结构模式研究的文章之一,在组织机构名称内部结构研究上有参考价值。但该分类和规则制定的方式都面向人,其规则稍琐碎,操作性不强。如雷文将金融组织机构名称分为七小类,现列举其中两小类:①银行名称+地名+分行+(地名)+(序数词)+(办事处),如交通银行石家庄分行第四办事处;②银行名称+(地名)+(支行)+地名(组织机构名称)+办事处(储蓄所、分理处),如中国工商银行洪山支行武汉大学储蓄所。
中科院计算所研究人员研究组织机构名称识别系统时,曾对组织机构名称用词进行了考察(俞鸿魁等,2003)。他们对1998年1月《人民日报》语料中的10817个组织机构名称所含的19986个词进行统计,共计27种词,其中普通名词最多(9941个),地名其次(5023个)。这说明“组织机构名称用词十分广泛,是命名实体中绝无仅有的”。在这些词中有很大一部分词是未登录词,如大部分的企业字号。
胡万亭(2013)基于百度百科和知网CNKI文本作为语料来源抽取其中的组织机构名,然后按照词频排序后,将词频靠前的组织机构名形式按照First Word+Middle Word+SuffixWord的位置信息构建规则。但其组织机构名称主要为科研院所,名称的类型单一,结构清晰,成分完整,所以无法在真实大规模文本处理中推广。
根据我们对分词软件识别错误的组织机构名称的考察来看,缺乏对组织机构名称规则的认识是导致错误的主要原因。“重视词语的特征研究与描写,这可能是自然语言处理中基于规则的方法和基于统计的方法的‘结合’点之所在,可能是一条光明大道。”(陆俭明,2006)因此,我们需要从语言学角度对组织机构名称进行规则研究。规则研究结果不一定都能直接应用于识别系统,但对其整合,必将有益于组织机构名称识别。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。