首页 理论教育 语料库实验:2005年和2006年报纸语料中组织机构名称的年度特征

语料库实验:2005年和2006年报纸语料中组织机构名称的年度特征

时间:2023-07-05 理论教育 版权反馈
【摘要】:下面我们从组织机构名称考察语料库中选取2005年和2006年六份报纸语料进行实验。根据表9-1至表9-3,65.47%的组织机构名称只出现一次。可见涨幅比例过滤可进一步客观地反映组织机构名称的年度特征。图9-2“中国女足”“教育部”历时走势图以上只是简单的实验,如果计算方式进一步精细化,将能更为准确地反映组织机构名称的年度特征,所得到的年度组织机构名称观测结果也更为精确。

语料库实验:2005年和2006年报纸语料中组织机构名称的年度特征

下面我们从组织机构名称考察语料库中选取2005年和2006年六份报纸语料进行实验。

根据表9-1至表9-3,65.47%的组织机构名称只出现一次。67.30%的组织机构名称只在一个文本中出现过。每年独用的组织机构名称种类约占当年全部组织机构名称种数的2/3,独用组织机构名称总数约占全年组织机构名称总数的1/5。年度独用组织机构名称一般为频次为1和2的组织机构名称。如频次较高,则为当年较热门的组织机构名称。绝大多数组织机构名称是随机出现的,极少数组织机构名称频次高且文本散布广泛。

表9-1 年度组织机构名称观测实验的语料规模

表9-2 2006年组织机构名称频次分布

表9-3 2002—2006年语料组织机构名称文本散布数分布

具体实验如下。

第一步:将观测对象——2006年报纸语料汇入语料库,通过频次过滤得到组织机构名称。我们不妨称为潜在目标组织机构名称1,共31928个,约占全部组织机构名称的18%。然后再将它们返回原始文本重新统计其频次,并由修正公式对其进行调整。根据第一次过滤,得到2006年频度最高的9个组织机构名称为:人民网、新华社、北京日报报业集团、国务院、中国队联合国、人民日报社、english京icp证000006号人民网版权所、欧盟

这一步排序最靠前的组织机构名称有一半都是媒体名,还有一个是网页信息,是错误的识别结果。

第二步:将此潜在目标组织机构名称1与2005年组织机构名称进行频差计算,过滤得到潜在目标组织机构名称2。实验中我们将年度频差的阈值设为100,则得到164个组织机构名称,见表9-4。

表9-4 组织机构名称年度频差统计

通过第二次过滤,频差最大的组织机构名称为:人民日报社、english京icp证000006号人民网版权所、北京日报报业集团、法国队、德国队、意大利队、以军、国安队、民进、上海合作组织。

与第一次过滤的结果对照,发现一些年度特征不明显的组织机构名称被过滤掉了,如人民网、新华社等媒体名称,国务院、中国队、联合国、欧盟等使用稳定的组织主体。

在经过第二步过滤后,频差最大的20个组织机构名称中,如以涨幅比例0.40为阈值,北京日报报业集团、党中央、北京电视台、美联社等常用组织机构名称将被过滤掉。可见涨幅比例过滤可进一步客观地反映组织机构名称的年度特征。(www.xing528.com)

通过三次过滤,得到的年度组织机构名称排名最前的候选组织机构名称为:人民日报社、english京icp证000006号人民网版权所、法国队、德国队、意大利队、以军、国安队、民进、上海合作组织、民进党、英格兰队、葡萄牙队。

然后再通过人工干预对人民日报社、english京icp证000006号人民网版权所等媒体名称、错误组织机构名称、文本外信息等进行过滤或修正。

通过三次过滤,我们初步得到了候选的2006年度组织机构名称,并对其进行分类[3]。政府组织机构名称如下:民进、民进党、国土资源部、铁道部、交通部、朝阳法院、中央综治委、红四方面军、国家药监局、丰台法院、国家安监总局、药监局、全总、红一方面军、市安监局、深圳市公安局。

最后通过人工干预,将“民进”与“民进党”合并,“国家药监局”与“药监局”合并,等等,最终得到2006年度政府组织机构名称。

从实验中,我们可以看到,尽管我们的“年度组织机构名称”观测流程图较为简单,但它的观测结果还是比较理想的。一些高频常用组织机构名称、识别错误的组织机构名称都得到了有效的滤除,而且所得结果基本反映了2006年较为突出的组织。如高居榜首的“民进”“民进党”与台湾地区民进党2006年的突出事件相关,而进入最后名单的国家部委都和2006年发生的重大事件和国家大型建设相关。

以上是对组织机构名称整体进行观测和发布。在这些数据的基础上我们也能很方便地实现对特定组织机构名称的动态观测。如,可以通过年度频次等统计数据绘制其历时走势图,以了解某一组织机构名称的历时分布状况。以“中国女足”和“教育部”两个组织机构名称为例。(图9-2)

图9-2 “中国女足”“教育部”历时走势图

以上只是简单的实验,如果计算方式进一步精细化,将能更为准确地反映组织机构名称的年度特征,所得到的年度组织机构名称观测结果也更为精确。

从图9-2可见,“教育部”的频次变化和五年的语料规模大小趋势一致,一直在高端位置平缓流动。“中国女足”的总体走势和“教育部”一致,但其上涨下跌的幅度要大于“教育部”。2002年到2003年,“中国女足”从谷底到达顶峰,随后2004年又跌入谷底,2005年继续上升至另一顶峰,直到2006年再次跌落。从媒体关注度角度来看,它们代表了两种类型,“教育部”年度特征虽不明显,但媒体对其长期保持关注。“中国女足”则带有较为鲜明的年度特征。

根据不同组织机构名称的历时走势图,我们可以得到持续高度关注型组织机构名称和年度高度关注型组织机构名称。前者如“教育部”,后者如“中国女足”。

动态观测的目标一般重点在年度高度关注型组织机构名称上,但持续高度关注型组织机构名称则反映了媒体历时稳定高度关注的情况。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈