首页 理论教育 组织机构名称简称中心词的优化方法

组织机构名称简称中心词的优化方法

时间:2023-07-05 理论教育 版权反馈
【摘要】:表8-7组织机构名称简称的中心词一览续表从以上统计数据可知,简称中心词的总体识别情况较好。多功能投影式中央/ORG数字仪表盘中央“中央”作组织机构名称简称中心词时,前接成分为政党名,即“政党名+中央”。

组织机构名称简称中心词的优化方法

组织机构名称简称的右边界成分,往往是一些类似于组织机构名称中心词的语素。但这些成分只会出现在组织机构名称简称的右边界而不能出现在全称中。我们不妨称为简称中心词。我们统计了语料中简称的中心词。如表8-7所示。

表8-7 组织机构名称简称的中心词一览

续表

从以上统计数据可知,简称中心词的总体识别情况较好。其中主要的识别错误有:“中央”“人大”“股份”和“办”。下面主要针对这四个简称中心词进行分析。

1.中央

“中央”兼组织机构名称简称中心词、方位名词。以下是将方位名词当作简称中心词的识别错误:

内部尖形穹顶以及中央/ORG拱洞上的……

多功能投影式中央/ORG数字仪表盘中央

“中央”作组织机构名称简称中心词时,前接成分为政党名,即“政党名+中央”。如:

李慈君委员代表民革中央/ORG发言

乌克兰共产党中央/ORG第一书记西蒙年科

2.人大

“人大”是一个有歧义的组织机构名称简称中心词,它既可作为“中国人民大学”的简称,又可作为“人民代表大会”的简称中心词。从语料统计结果看,“人大”表示“人民代表大会”远大于表示“中国人民大学”的概率,其词语总数的比例大概是95∶5。另外,在表示人民代表大会时,“人大”一般都有前接成分——地名,如全国人大、省人大等。

另外,“人大”的识别错误主要是分词阶段的交集型歧义导致。如:

积极题材影片《好人大/ORG冯》昨天在……(www.xing528.com)

如前所述,这也是因人名识别错误引起的。如:“大、小、老+姓”。

当分词识别系统未应用到这一类人名规则时,或训练语料未出现这一类规则时,容易引起识别错误,影响到组织机构名称识别。

3.股份

“股份”作为“股份有限公司”的简称,主要在证券金融类语料中出现。少部分识别错误的情况,主要是将一个公司名全称右边界标记在“股份”上,而忽略了真正的企业名中心词“有限公司”。如:

北京中关村科技发展(控股)股份/ORG有限公司段永基

可见,“股份”作为组织机构名称右边界的前提是股份后接成分无“公司”或“有限公司”。否则,“股份”不能作为右边界。

4.办

“办”既是“办公室”的简称,又是动词,表示办理、从事、进行。“办公室”也是由“办理公务的房间”逐渐引申为“办理公务的部门”。将动词“办”识别为组织机构名称简称中心词,主要原因在于,训练语料中“办”为单字动词的概率偏小,不及“办”作为组织机构名称简称的概率。识别错误如下:

北京将办/ORG业余网球大赛

北大要办/ORG艺术

打招呼的,是求我办/ORG过事的

中关村今天开始办/ORG护照

对此,可以应用以下规则辅助分词标注:当有“副词、副动词+办+名词”,或“办+副词、副动词+名词”时,“办”为动词。

本节构建了组织机构名称中心词表,除1899个无中心词的组织机构名称,对其余组织机构名称进行了中心词标记,共包括:19个非组织机构名称中心词、8个组织机构名称小概率中心词、52个组织机构名称单义中心词、26个组织机构名称兼类中心词、25个组织机构名称简称中心词。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈