组织机构名称兼类中心词(见表8-5)既经常表示组织机构名称,又兼有其他语义、语法功能。其种数比例为50.46%。
表8-5 组织机构名称兼类中心词一览
续表
中心词前往往还可带上语素作为限定成分,如分、支、总、大等。可带“分”的有公司、校、队、行、部、区、会、局、厂、社、中心、店等。可带“支”的有队、行、部等。可带“总”的有公司、队、行、部、会、局、厂、场、店等。可带“大”的有队、使馆、会、剧院等。
以上都是典型的组织机构名称中心词。这类中心词既可用于组织机构名称全称,又可用于组织机构名称简称。总体看来,这些词之所以会成为组织机构名称兼类中心词,和它们是单音节词相关。单音节词的发展历史较双音节词漫长,引申出多个义项甚至衍生出同形词,所以往往带来歧义,这是导致组织机构名称兼类中心词识别错误的根本原因。另外,这些单音节中心词的歧义之间有时有着紧密联系,特别是兼地名中心词、事件名中心词的词语。这和它们的本义相关。如地名中心词“院”“室”等都是建筑物名称,表示场所类地名,或当作地名中心词用,后来逐渐引申为常驻某一场所的组织,于是又可作组织机构名称中心词。“会”的本义为“聚集”,可作为动词、名词使用。“会”的构词能力很强,它构成的事件类名词短语,表示人们聚集在一起所进行的活动;它构成的组织机构名称中心词,表示人们聚集在一起所形成的组织。
总体上看,解决这一类问题的方法由易到难有四种。
(1)根据语料统计其词性标记概率以解决大部分标记错误。如,六个组织机构名称中心词(队、中心、组、班、庭和网)主要表示组织机构名称,虽然兼类,但仅仅依靠从语料中统计各种标记情况的概率就能基本解决识别问题。
(2)研究并建立为识别服务的组织机构名称禁用词库、禁用字符串库[3]。当一个组织机构名称兼类中心词表示动词、名词、介词等功能时,它的前后往往出现禁用词性或禁用词。但实际上,禁用词、禁用字符串就能解决绝大部分兼类组织机构名称的识别错误。所以建立禁用词资源,并不断使禁用词资源建设精细化,能解决余下的大部分识别问题。
(3)通过统计或人工制定的方法获得有效结构规则。当概率统计和禁用词库都难以解决识别问题时,就需要制定结构规则。有些组织机构名称的结构规则较容易制定,如“系”。这类组织机构名称中心词占了主要部分。其余极少数难以制定组织机构名称结构规则的往往是“真歧义”。同一单字语素可进入不同的名词短语,而且其词性序列往往是相似或相同的,如:中国艺术研究院/ORG报告/v厅/n、国务院/ORG办公/v厅/n。但这类“真歧义”只会出现在个别词的个别语用环境中。对于这一类“真歧义”,往往需要深入到语义、语用层次上进行辨析。目前信息处理技术还很难实现这个功能。
(4)除了统计技术的应用外,比较有效的方式是,尽量扩大组织机构名称中心词在词表中的规模,补收语料中高频的“中心词限定成分+单字中心词”,以对单字中心词进行语义约束。以“厅”为例,从语料统计来看,作为全称组织机构名称中心词时,都是“办公厅”。“多功能厅”“宴会厅”“报告厅”等都是场所类地名。这样直接避免不同名词短语之间的混淆,使我们能更准确地计算组织机构名称各成分的置信率,提高分词标注精确率。
本书限于时间和精力,尚未从这四个角度解决全部的规则知识问题,下面我们着重分析识别错误率较高的中心词以及目前可以解决的中心词的识别问题。
兼类组织机构名称识别具体的错误类型主要如下。
1.分词、人名识别、地名识别阶段遗留的错误
分词、人名识别、地名识别是组织机构名称识别的前期工作。前期工作精度直接影响组织机构名称的识别精度,特别是组织机构名称兼类中心词,一旦未正确标注其词性,往往容易导致其被捆绑成组织机构名称。这一类问题也是较容易解决的部分。
①兼介词、动词:连。
在兼类组织机构名称中心词中,“连”的识别错误率最高。“连”类组织机构名称识别错误如下:
硕博连/ORG读(连:动词)
元华本人激动得连/ORG说七声……(禁用词:得[4])
爱子岸红更是连/ORG照片都没有……(禁用词:更、是)
宁波镇海一条疯狗连/ORG咬27人……(禁用词:疯狗、一条)
“连”作为组织机构名称中心词时,指部队编制单位。如:武警8713部队通信连。
当“动词、名词十连”且动词、名词表示连队职能时,“连”为组织机构名称中心词。如特务连、炮兵连、通信连。
当“序数词+连”时,“连”为组织机构名称中心词。如:中国工农中央红色警卫团第一连。
当“基数词十连+动词+了”时,“连”为动词。
表示武装力量的组织机构名称中心词,如连、军、师等,当出现在军事类领域中时,表示组织机构名称中心词的概率较大。而在一般领域中时,表示组织机构名称中心词的概率较小。
②兼动词:会、站、组织、学会、报。
组织——西洼村近两年由村里组织/ORG统一引进良种……(禁用词:村里、由、两年)
我们公司经常参与《北京青年报》组织/ORG的活动……(真歧义:ORG+组织)
学会——这之后,诸葛亮才学会/ORG放孔明灯……(真歧义:才/学会,才学/会)
站——只有一男一女两个人站/ORG在……(禁用字符串:两个、一男、一女)
系——刘某系/ORG刑警队长……(禁用字符串:姓+某)
当学科名+“系”时,“系”为组织机构名称中心词;
当姓+某+“系”时,则“系”为系动词,义同“是”。
报——请相信好人有好报/ORG……(禁用词:有、好人)
③兼助词:所。
所——承包户张某所/ORG养淡水鱼因水质(禁用字符串:姓+某)
④人名常用字:军。
“军”作为军事类主要组织机构名称中心词,它也是常用的人名用字。(www.xing528.com)
王子军(禁用词:王子;王:常用姓)
邓军(禁用词:邓;邓:主要用于姓)
“军”类组织机构名称识别结果错误率达20%,所有的识别错误均是将人名当作了组织机构名称。可见这是人名识别遗留的问题。
当“常见姓+军”或“常见姓+×+军”时,“军”为人名用字。
在组织机构名称错误识别结果分析中,我们发现人名的规则知识还需要加强。很多识别错误都是因人名识别引起的。
⑤同形词。
行——首体演唱会为中国足球队壮行/ORG(词表词:壮行)
⑥兼地名。
台——私渡女家属昨启程赴台/ORG(禁用词:启程、赴)
⑦其他。
团——北京海龙电子城1层前台团/ORG购时间(禁用字符串:1层;词表词:前台)
2.因兼作量词引起的错误
在汉语历史发展中,一些名词逐渐发展出量词功能。如:“一局棋”中的“局”原指“棋盘”;“一处刀伤”中的“处”原指“处所位置”。量词逐步丰富,“数词+定语”逐渐演变成“数词+量词+定语”结构。而这些名词除了发展出量词功能外,在名词系统内部,它们又发展成为组织机构名称中心词。这是大量组织机构名称中心词同时兼量词类的根本原因。当它作量词时,其前接成分一般为数词。而中心词前也可出现数词,在这种情况下就很容易导致识别错误[5]。举例如下。
局——李昌镐扳回一局/ORG
部——美国唯一一部/ORG参赛影片
所——title:本市消费学校近百所/ORG
处——造成曾某左小腿和左大腿两处/ORG原发骨折形成
站——世界巡回演唱会在中国唯一的一站/ORG
团——晨晨突然缩成一团/ORG
但实际上,这一类问题比较容易解决。我们在“7.5组织机构名称的禁用字”一节中已讨论。
3.因兼作其他名词短语中心词引起的错误
这类错误具体又分为以下几种情况。
①兼地名中心词,院、室、馆、厅。
院——暂安处2号院/ORG及中科院学生公寓
室——广州市环市东路362—366号广州好世界广场1907室/ORG
馆——中国石油大学体育馆羽毛球馆/ORG
厅——北苑家园紫绶园二室一厅/ORG
兼作地名和组织机构名称的中心词,它们的左边都可以是数词,因此引起的部分和兼作量词引起的错误一样。另外,它们的左边也可以是一般的名词,如构成“会议室”“羽毛球馆”“报告厅”等。这一类词语比较难判别。但依据概率统计、结构规则,还可以对地名词表进行扩充,将“会议室”“球馆”“报告厅”等作为地名中心词或地名性名词收入词表。
②兼事件类名词短语中心词,会。
表8-6为兼作组织机构名称、事件名中心词的“会”使用示例。
表8-6 兼作组织机构名称、事件名中心词的“会”使用示例
③兼职业名称中心词,师。
兼职业名称中心词被错误识别为组织机构名称中心词,如健康管理师、中国注册税务师、美国国家注册音乐治疗师。
“师”的识别错误率达30%。
当“动词、名词+师”且动词、名词表示职业时,“师”不为组织机构名称中心词。
当“数词十师”时,“师”作为组织机构名称中心词的可能性很大。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。