为了解分词系统在组织机构名称中简称的标注情况,我们实际调查了某性能优秀的分词标注系统。表6-5是该分词标注系统的词性标记集。
表6-5 某分词标注系统的词性标记集
续表
观察中我们发现,AORG标记结果同时也会被标记为ORG。因为AORG标记的依据是文本信息而非形式特征。文本信息,即在同一文本中,上文出现全称,而后用简称形式,则可能将其标注为AORG,否则标注为ORG。为了解这种既标记为AORG也标记为ORG的组织机构名称的情况,我们将语料库中全部281个AORG的词形成一个AORG词表,对所有标记为ORG的词形成一个ORG词表,对两个词表进行统计对比。算法如下。
(1)提取AORG词表中第i个词Wi分别在ORG词表和AORG词表中的总词次Toi和Tai。
(2)求取Wi在语料库中的总词次(Ti),Ti=Toi+Tai。
(3)分别求出每个Wi标记为AORG和ORG的比率Rai、Roi。
Rai=Tai/Ti×100%
Roi=Toi/Ti×100%
(4)对AORG词表和ORG词表中的词按照频率高低排列,计算累加频率,并按照累加频率分段求取n个组织机构名称的Ra和Ro。(www.xing528.com)
Ra=Ra1+Ra2+……+Ran Ro= Ro1+Ro2+……+Ron
(5)按照累加频率分段求取段内n个标记词平均标记比率Pa、Po。
Pa=Ra/n
Po=Ro/n
(6)根据平均标记比率Pa、Po对AORG标记词聚类。
从以表6-6可知,①AORG词表中的组织机构名称,频率越低,标记为ORG的倾向性越大;②总体上一个组织机构名称简称被标注为AORG和ORG的概率比大致为1∶2;③组织机构名称简称在两个词表中的相对位序一致。
表6-6 按累加频率分段统计的组织机构名称、组织机构名称简称平均标记数比例表
根据以上考察可以得到以下结论:①AORG标记设置显得冗余;②我们不能将标记结果ORG词表、AORG词表直接与全称、简称对应,需要合并统计;③在对组织机构名称简称进行研究时,可以主要基于数量级小的AORG词表。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。