首页 理论教育 高频词中的组织机构名称探析

高频词中的组织机构名称探析

时间:2023-07-05 理论教育 版权反馈
【摘要】:在覆盖整个语料90%的高频词语中,共出现了16974个不同的词语,而其中组织机构名称只出现了147个,仅占0.866%。原因是,高频词语中,组织机构名称的平均频次反而高于整个词语的平均频次。高频组织机构名称中与美国直接相关的就有“美军”“美国政府”两个。因此,“欧盟”和“北约”都是高频出现的组织机构名称。结果显示,一共有27261个组织机构名称识别结果指称“中央电视台”,而有18298个组织机构名称识别结果指称“北京电视台”。

高频词中的组织机构名称探析

我们以《中国语言生活状况报告(2020)》中的前5000个高频词为观察窗口,考察其中的组织机构名称或标志性词语,以了解当年我国平面媒体、有声媒体、网络媒体上组织机构名称的分布状态。如表4-1所示[1]。

表4-1 《中国语言生活状况报告(2020)》前5000高频词中的组织机构相关词语

续表

为了解更细颗粒度的媒体高频词语,绝大部分四字以上有嵌套的组织机构名称被分解。如大学名称分解后均成为普通词语。但我们仍能从这里一窥我国整个语言生活中组织机构名称的频率特征。总体上,在前5000个细颗粒度的高频词中,有37个较为明确的组织机构名称,涉及我国经济金融(有限公司、证监会、保险公司交易所海关、证券公司、淘宝)、政务工作(国务院、人大、常委会、市政府、省政府、人民法院)、党务工作(十八大、党支部、十九大)、台湾事务(民进党、国民党)等方面。其中我国经济金融工作的重要地位也能在这里略知一二。

根据我们另外生成的组织机构名称总表的频次统计可知,平均每个组织机构名称出现6.4次。其中,约63%的组织机构名称仅出现一次;约17%的组织机构名称出现两次;而频次在10以上的组织机构名称仅占组织机构名称总数的4.3%;频次从100到200000的组织机构名称,其频次差异也非常大。可见,大部分组织机构名称频率很低。这也进一步证实,组织机构名是未登录词的重要组成部分(表4-2)。

在覆盖整个语料90%的高频词语中,共出现了16974个不同的词语,而其中组织机构名称只出现了147个,仅占0.866%。但覆盖率[2]90%的词语总数中,组织机构名称的词次[3]占到总词次4.016%。原因是,高频词语中,组织机构名称的平均频次反而高于整个词语的平均频次。对照两个规模统计表可知,一般词语和组织机构名称的分布都符合齐普夫(Zipf)定律,即少部分词语占据大部分覆盖率,大部分词语却占据小部分覆盖率。但其中,组织机构名称的这一特征比一般词语更明显。尽管前147个组织机构名称的语料覆盖率只有3.614%,但它们的平均频次却是整个词语平均频次的4.637倍(表4-3)。

表4-2 组织机构名称频次分布统计

表4-3 语料库覆盖率前90%的词语和组织机构名称统计

续表

下面我们取部分高频组织机构名称进行分析。

从表4-4可知,30个组织机构名称中,7个是媒体名称:人民网、新华社、北京日报报业集团、北京日报社、北京电视台、人民日报社、中央电视台。其余23个组织机构名称全部都是社会生活中最重要的组织、话语权最大的组织以及媒体社会最关注的组织。(www.xing528.com)

表4-4 最高频的前30个组织机构名称一览

①国内党政司法机关名:国务院、中国政府、中国共产党公安部教育部、党中央、中共中央政治局、最高人民法院、中共中央、卫生部、全国人大常委会

②国外国际组织机构:联合国美军欧盟美国政府、韩国队、安理会、北约。

③国内体育竞技类组织:中国队、中国足协、北京队、中国女足。

④教育科研类组织:北大

高频组织机构名称中与美国直接相关的就有“美军”“美国政府”两个。这说明美国作为世界第一强国,其军队行为和政府行为在国际上所受的广泛关注度。而地缘政治组织中能与美国抗衡的唯一国外组织就是欧盟了。这也说明欧洲成立欧盟以后对美国的牵制作用和国际影响力增强。但实际上北约作为以美国为首的主要国际地缘政治集团的领先地位依然难以撼动。因此,“欧盟”和“北约”都是高频出现的组织机构名称。

组织机构名称排序只能反映组织机构名称的使用情况,而不完全等同于组织的真正关注度。但在资源库的基础上生成组织机构名称与组织的映射表,将指称同一组织的组织机构名称归类,则能系统考察媒体上组织机构的“出镜”情况。这进一步加强了对组织机构名称的考察功能。

例如,在全部组织机构名称词频表中“北京电视台”位列第10位,“中央电视台”位列第27位。而通过组织机构名称与组织的映射表,我们可以知道,中央电视台在数据表中对应多个组织机构名称:中央电视台、CCTV、央视、中国中央电视台等。另外,这些组织机构名称又在其他组织机构名称形式中作为嵌套成分。还有,所有这些组织机构名称的实际识别结果中又包含着大量的错误,所以导致其频次一再分流。“北京电视台”也有类似的情况。包含一个组织全部组织机构名称形式的统计结果才能真正说明一个组织在媒体上出现的情况。结果显示,一共有27261个组织机构名称识别结果指称“中央电视台”,而有18298个组织机构名称识别结果指称“北京电视台”。

在组织机构名称与组织的映射表的基础上,我们可以进一步考察“一实多名”现象。以“中央电视台”为例,由表4-5可知,其中“中央电视台”的频率最高,其次是央视,“中国中央电视台”所占比值最小。

表4-5 表示“中央电视台”的四种名称的使用情况

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈