组织机构名称中的小概率中心词一般标记为非组织机构名称,偶尔也作为组织机构名称中心词。
从这些组织机构名称中的小概率中心词的识别结果看,目前,“省”“田”“段”和“股”都没有发生识别错误。而“营”“场”的识别错误率高达95%。“堂”“园”的识别错误率也达到了60%以上(见表8-3)。对于这种几乎都会识别出错的组织机构名称中的小概率中心词,有两种处理方式。
(1)为保证分词识别的总体精度,一律不将其作为组织机构名称中心词。
(2)分析它们用于组织机构名称时的规则,扩充词表,为进一步提高分词识别精度服务。
表8-3 组织机构名称中的小概率中心词一览
下面我们对每一个组织机构名称中的小概率中心词的规则进行初步分析。
[2]营。“营”作组织机构名称中心词时,主要指军事队伍组织机构名称。但语料中,“营”作为军事组织机构名称中心词出现的概率很低,只有“独立营”。以“营”为中心词的识别结果主要为“集中营”。“营”作为事件类名词中心词时还有“夏令营”,值得一提的是,台湾省的“蓝营”“绿营”也不是组织机构名称。
②省。一般作为行政区划的中心词,如台湾省、青海省等。当它作为组织机构名称中心词时,特指日本的国家行政部门,相当于一般的“部”。如外务省、通产省。(www.xing528.com)
③堂。我国古代的常用词,主要有名词、量词两种词性。a.作为名词的“堂”是专为开展某种活动用的房屋或厅堂名称。识别结果中的“堂”有教堂、会堂等。教堂是基督教等宗教信徒举行宗教仪式的场所,是地名中心词,如伯利恒圣诞教堂、科隆大教堂等。与“教堂”相关的“教会”是基督教等宗教信徒组成的组织,是组织机构名称中心词。会堂即“礼堂”,多用于建筑物名称。如人民大会堂、北京交通大学天佑会堂等。所以会堂是地名中心词。b.作为量词的“堂”用于计量课程、庭审、场景等。“堂”作为组织机构名称中心词,主要用于学堂、讲武堂等。如京师大学堂、云南陆军讲武堂。
④田。“田”指农田或采矿地带,一般作为普通名词。识别结果中出现的油田、煤田、油气田都作为组织机构名称中心词。如大庆油田、四川筠连煤田。
⑤场。从语料看,场类组织机构名称倾向于表示地名的概率远高于表示组织机构名称的概率。从语义上看,以“场”作为组织机构名称中心词,凸显的是企业的空间属性。如体育场、市场、机场、游泳场、试验场、棒球场、剧场、发射场、垒球场、卖场等,都表示地名。“场”作为组织机构名称中心词,是一种传统的企业命名方法,指农林牧副渔企业名,并且其场地特征很明显,往往难以区分,但都可用“厂”代替。所以在识别时,可以有三种策略:a.统一识别为地名以使识别规则尽量简单不冲突;b.将表示组织机构名称中心词的“场”扩展为三字词统计、训练,并收入词表,以提高识别精确度;c.将其识别规则与“厂”归并,可用“厂”替代的则为组织机构名称。
⑥园。除“幼儿(稚)园”外,其余“园”类均为地名、场所设施名中心词,表示一种专门用途的场地。如公园、科技园、工业园、植物园、创业园等。
⑦段。一般“段”作为名词性量词使用,表示“空间、时间的长度属性”。如“一段铁路”“一段岁月”等。“段”作为组织机构名称中心词,专指铁路系统中的分支机构,如客运段、机务段、工务段、车辆段等。
⑧股。一般作为名量词使用,原指“绳线的组成部分”。“股”作为组织机构名称中心词,表示“一个机关组织系统种按业务划分的单位,一般级别比科低”。如用电股、刑侦股、宣传股等。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。