首页 理论教育 获取组织机构名称的中心词优化方案

获取组织机构名称的中心词优化方案

时间:2023-07-05 理论教育 版权反馈
【摘要】:对于地名识别而言,除用地名通名用词判定右边界外,与地名频繁共现的介词等前接词语可以帮助判定左边界。这两类数据共1899个,剔除之后还剩613582个组织机构名称。在此基础上进行必要的人工干预,形成组织机构名称中心词表。

获取组织机构名称的中心词优化方案

组织机构名称和人名、地名在构词性质上有一定的相似性。它们都由本名和类名两部分构成(表8-1)。其类名(人名姓氏、地名通名和组织机构名称中心词)是其重要标志形式。这三者都可以作为重要的识别线索。

表8-1 三种命名实体的结构模式

人名的结构以字为基础,属于线性结构。对于人名识别,除了用姓氏用字判定左边界外,称谓、职衔等前后接成分可以作为人名边界判定规则,命名常用汉字及其位置统计信息作为人名置信度统计的基础。

地名的结构以地理名词为基础,也属于线性结构。对于地名识别而言,除用地名通名用词判定右边界外,与地名频繁共现的介词等前接词语可以帮助判定左边界。已有的各种地名库、地名用词可以作为登录词直接用于识别。

组织机构名称与地名有相似之处,如类名都在右边界,介词等前接词可以帮助判定左边界,但组织机构名称的结构、成分有别于人名、地名。组织机构名称结构属于树形结构,而且构成成分以普通词语为基础,夹杂单字语素(如字号成分)。

组织机构名称一般是定中结构名词短语。组织机构名称中心词前的成分都是其定语。对于组织机构名称识别而言,首先要定位组织机构名称右边界,一般即组织机构名称中心词。再由右向左逐一考察词语的合法性,即词语是否合乎语言规则,直到确定组织机构名称的左边界。因此无论是基于规则的还是基于统计的组织机构名称识别系统,均充分利用组织机构名称的中心词建立规则或建立统计模型。下面我们将以615481个组织机构名称为数据基础,剔除无中心词的数据,根据组织机构名称的界定原则,对识别结果进行周遍的考察。在中心词这一层次上首先将组织机构名称和非组织机构名称区分开来。

考察前要暂时剔除的无中心词的数据包括两种:一是被识别为组织机构名称的普通名词,属于错误识别结果,如“啤酒花”“中卫”“葡萄酒”等;二是中心词频率极低、无中心词的组织机构名称简称,如“联合国”“微软”“麦当劳”“欧佩克”“一汽”等。这两类数据共1899个,剔除之后还剩613582个组织机构名称。

这里的中心词是一个从识别的角度所作的形式化的定义,严格说来包含中心词语素、中心词简称、中心词限定成分+中心词:

①中心词语素:一些能产的语素往往出现在多个中心词里,如“室”扩展出“办公室”“工作室”等子类中心词等。我们将这种中心词语素作为中心词,以统领这些子类中心词,以精简中心词表。

②中心词简称:一些由中心词简化而来的语素所在的组织机构名称很多,频次很高,如由“办公室”简化而来的“办”,由“委员会”简化而来的“委”等。这种形式上的中心词有助于识别组织机构名称简称。

③中心词限定成分+中心词,当中心词和限定成分结合紧密,且单一中心词需要对其进行限定才能明确其内涵时,就应对中心词进行必要的限定。如代表大会、党总支、检察院等。

本书获得中心词的方法和步骤如下。

①人工建立一个中心词表,包含常见的中心词如“公司”“大学”等。

②在匹配了人工建立的中心词表后,对余下组织机构名称的右边界第一个字符进行统计,由高频到低频排序以获得独立的单字中心词。(www.xing528.com)

③在匹配了单字中心词后,继续对余下的组织机构名称右边界两个字符进行统计,以获得高频双音节中心词。

④在匹配了双音节中心词后,继续对余下的组织机构名称右边界三个字符进行统计,以获得高频三音节中心词。

⑤对在三音节匹配中被切为碎片的多音节中心词进行人工补正。三音节以上中心词只发现了四音节的情况。

⑥每一步都可能产生前一步中心词的子类。在此基础上进行必要的人工干预,形成组织机构名称中心词表。

组织机构名称中心词表中的中心词分五类:非组织机构名称中心词、小概率组织机构名称中心词、单义组织机构名称中心词、兼类组织机构名称中心词和简称中心词。

在组织机构名称中心词表建设中,我们遵循两个原则。

1.词汇发展的动态与稳态

词汇永远处于动态发展变化中。本书考察的基础来自2002—2006年的真实语料。从语言长期的动态发展规律来看,这一时间段内的组织机构名称中心词都是逐步从非组织机构名称中心词、小概率组织机构名称中心词、兼类组织机构名称中心词发展而来的。如:“田”是耕作之地,引申为“开采油、煤之地”[1];“会”指聚合、会见,可引申为以成员聚合商议为职能形式的一类组织;“庭”是厅堂、场院,引申为司法审判的厅堂及在此场所行使职权的司法组织;“段”是将“长条东西分为若干部分以表示距离和事物一部分”的名词性量词,引申为“工矿企业等的一级行政单位”;“中心”是空间上的核心位置,引申为“设备、技术力量等比较完备的组织和单位”;等等。这些都是名词、量词、动词的语义联想,这些词在语用过程中逐渐成为组织机构名称中心词。

语言在不断地发展,对于组织机构名称中心词而言,也是如此。在语用过程中,非组织机构名称中心词可能会逐步发展成为小概率组织机构名称中心词,小概率组织机构名称中心词逐渐发展成为兼类组织机构名称中心词。

尽管组织机构名称中心词已经并继续发生变化,它也有相对稳定的一面,基于2002—2006年历时性语料的观测结果在很大程度上是能反映现代汉语的组织机构名称中心词概貌的。在考察稳态的组织机构名称中心词基础上,建立组织机构名称中心词可信度模型,可以为组织机构名称识别提供可信实用的资源。

2.基于语料库组织机构名称识别结果及其概率统计

本书是基于统计面向组织机构名称识别系统的研究,中心词的分类主要依据语料库统计结果。虽然本书依据的语料库是大规模真实历时的主流报纸语料库,但可能存在数据稀疏的现象,而且目前的组织机构名称识别水平还有限,可能存在某些组织机构名称中心词未包含在本表中或归类不够精确的情况。譬如,“基地”“会议”“武装力量”等词,在现实中可能有了作为组织机构名称中心词的潜力和趋势,但从语料库中还看不到它们用于组织机构名称的情况。另外,“剧院”“办公室”等既可作为地名,又可作为组织机构名称。根据语料统计,“剧院”绝大部分作为场所类地名的中心词,“办公室”则作为组织机构名称中心词,所以分别将它们归入地名中心词和组织机构名称中心词。这种处理方法可以保证大部分的识别精确率和召回率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈