从已有的组织机构名称识别研究成果上,我们可以看到目前资源建设的不足之处:①语料选取,语料选取基于的语料一般都是时段很短的语料,规模小,领域面窄,语料相对滞后,并且往往都是随机选择的;②资源粗放型,对搜集到的数据进行自动统计学习,扎根真相较少;③缺乏共有资源,识别系统之间不存在资源的共享。这也导致了资源建设上的浪费和利用率低下。针对组织机构名称识别进行的具有重复利用价值的资源建设则更少。下面是我所了解的组织机构名称识别相关的资源,均为十多年前的资源。
(1)文献(王宁等,2001)基于两次规则进行金融公司名识别,为此建立的资源包括:基于1336篇网络金融新闻约8 Mb的语料库,在87500个公司名录的基础上人工建立了公司名后缀库、公司类型名库、公司名禁止词性库、公司名禁止词库、公司名完全禁止库、公司名不完全禁止库等。
(2)文献(向晓雯等,2005)基于《人民日报》1998年1个月的语料,建构了具优先级别的匹配规则,基于隐马尔科夫模型与规则进行中文机构名识别。
(3)文献(沈嘉懿,2007)等为识别中文机构名,随机网络抽取1130个包含1500个组织机构名称的句子,基于它们建设了中文组织机构特征词库和规则集,包含机构后缀库、独立机构名称库、定语修饰词规则集、机构类型库等。
组织机构名称识别系统的研究者在总结自身研究成果时,认为语言学分析和资源建设的不足直接影响了识别系统的识别效果。如清华大学王宁等学者认为导致系统识别效果不够理想的原因是类型名、简称知识欠缺(王宁等,2002)。山西大学郑家恒教授等认为语料库的规模有限,组织机构名称在真实文本中的覆盖率不完全,使得计算结果不够客观(郑家恒等,2007)。上海交通大学沈嘉懿等学者认为还未考虑到中文机构名称的上下文用字特征对识别的作用,且简称规则不够准确完善(沈嘉懿等,2007)。上海交通大学张云涛等学者认为组织机构名称用词数据不全面,对简称分析不足导致了错漏情况(张云涛等,2007)。
组织机构名称和人名、地名并称三大命名实体、三大专名。然而,与中文人名、地名的基础资源建设相比,组织机构名称的基础资源建设任重而道远。我们不妨了解一下其他专名/命名实体的相关资源建设情况。
在人名识别方面,我国建立了中文姓名识别数据资源库(刘开瑛,2000)。该数据资源库包括以下内容。
(1)中文姓名库,含人名近2万个。
(2)基于中国社会科学院语的姓氏人名用字统计分析和《人民日报》语料库(规模达300万汉字,使用了18861个人名)研制的姓氏、名字用字表,其中姓氏433个,名字用字1411个,其中名字首字用字883个,名字尾字用字1156个。(www.xing528.com)
(3)称谓及指界动词表,收录人名前称谓词、后称谓词、双向称谓词、指界动词共105个。
(4)屏蔽词库,收录一些易判为姓名的常用词(如安全、常德、桂冠),共计302个。
在中国地名自动识别方法研究方面,我国也建立了中国地名知识库。
(1)中国地名库,含地名近10万条,全部来自《中华人民共和国地名录》。
(2)中国地名用字库,共包含3685个字,利用机器从《中华人民共和国地名录》和280万《人民日报》语料中的地名分析得到。
(3)地名指示词库,本库中收录常与地名共同出现的词15个。
然而,与人名、地名识别的资源建设现状相比,组织机构名称识别的资源建设从规模到深度都还有相当大的差距。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。