非组织机构名称中的伪中心词,即一些一般不能作组织机构名称中心词的词语,在实际的自动识别中,往往容易被误认为是组织机构名称中心词。凡判定结果中右边界为这些词语的,均为识别错误的组织机构名称。在种数上这类组织机构名称占识别结果的1.936%,在总数上占识别结果的0.924%。具体情况见表8-2。
表8-2 非组织机构名称中的伪中心词一览
非组织机构名称中的伪中心词分为四种。
(1)地名中心词。
地名包括了地理名称、政治地理名称、军事地理名称、场所名称、设施名称等。由于地名和组织机构名称关系密切,很容易将地名与组织机构名称混同。但根据考察分析,以下词语一般都不应识别为组织机构名称中心词。
①大厦——高层商用建筑名称,其中可容纳多个组织。如中关村海龙大厦、温州中国银行大厦等。与之对应的“商厦”则为组织机构名称中心词。
②基地——作为某种事业基础的地区。如成都大熊猫繁育研究基地、石景山动漫基地、广东省小麦基地、大连实德训练基地等。
③区——非行政区划的地名中心词。包括军区、卫戍区、自由贸易区、开发区等,如北京军区、中国人民解放军京津卫戍区、北美自由贸易区。
④联邦——联邦是由若干具有国家性质的行政区域(有国、邦、州等不同名称)联合而形成的同一国家,各行政区域有自己的宪法、立法机关和政府。联邦也有统一的宪法、立法机关和政府。国际交往以联邦政府为主体。从识别结果来看,“联邦”指联邦国家,如俄罗斯联邦,因此它表示地理政治实体名称。
⑤宫——包括文化宫、少年宫、水晶宫等识别结果,均为场所设施名。如广州市第二少年宫、劳动人民文化宫等。
⑥城——以“城”结尾的中心词,在识别结果中有商城、娱乐城、商业城、美食城、服装城等,一般都是同类经营单位的集中贸易区,如中关村科贸电子商城、杭州白马服装城等,多为地名。但现实中也偶尔存在以娱乐城、美食城等命名的组织机构名称,这一问题涉及组织机构名称的规范化问题。
⑦府——准确说来,府是组织机构名称中心词语素。识别结果中只出现这三种以“府”结尾的组织机构名称:总统府、总理府、政府。其中前两类如土耳其总统府、坦桑尼亚总理府等为设施名,北京市人民政府、伊拉克政府等为组织机构名称。
⑧国——除“联合国”外,均表示地理政治实体。如欧盟轮值主席国、阿联酋沙迦酋长国、美利坚合众国等。
⑨山庄——如承德避暑山庄、昌平区御汤泉度假山庄。而“饭庄”“茶庄”等是仿古组织机构名称中心词。
⑩港——识别结果包括浦东国际航空港以及北京商业信息港等。前者是地名中心词,后者借用了“港”来表示一个城市的网络系统。
(2)事件类名词中心词。
它们指称的全部为事件类名词。(www.xing528.com)
(3)普通名词。
①基金。基金是兴办、维持或发展某种事业而储备的资金或专门拨款。识别结果中的“基金”均为投资理财产品或慈善、保障性质的资金,如华夏债券基金、社保基金。总体考虑,统一将“基金”作为普通名词,不捆绑为组织机构名称为好。
②武装力量。武装力量是国家的正规军队及其他武装组织的总称。
③总指挥。总指挥是职衔名词。如:伊拉克战争总指挥、中国载人航天工程总指挥等。当“总指挥+人名”时,识别系统将“总指挥”标记为组织机构名称。可见,这类错误都是组织机构名称后接成分规则学习过度的结果。
④赛场。显然,赛场是比赛所用的场地,因此是地名。如2006年足球世界杯决赛赛场。
⑤企业。企业是一个总称,以企业为中心词的名词短语都不是一个具体的企业名称,而是对某个或某类企业的说明。如大连中韩合资企业、中国汽车合资企业等。
⑥煤炭。根据上下文分析,将“~煤炭”识别为组织机构名称,没有任何的依据可言。如北京矿务局三河煤矿京煤煤炭、东胜煤田煤炭等。但这一类识别结果规模不小,所以将其特别列出来。
(4)术语中心词。
组织机构名称总表中,以“学”为中心词的只有“大学”“中学”“小学”三种组织机构名称中心词。其余为学科类名词中心词,且全部是“教育学”。识别结果如下:
A.华东师范大学教育学/ORG/教授/n叶/APER澜/APER建议/v……
B.北京师范大学儿童教育学/ORG博士/n陈/APER苗苗/APER指出/v……
C.作者/为/华东师范大学教育学ORG/系/v副教授/n
这种识别错误,表面上是将“学”作为组织机构名称中心词。实质上,A、B是组织机构名称统计模型中规则“ORG+职衔+人名+动词”的应用。C是动词“系”统计模型“系+n”的应用。将“教育学”识别为组织机构名称,错误类型类似于“总指挥”,都是统计规则中后接成分规则学习过度的结果。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。