首页 理论教育 探索组织机构名称动态观测的方法

探索组织机构名称动态观测的方法

时间:2023-07-05 理论教育 版权反馈
【摘要】:第三步:在原始文本中通过匹配的方式重新计算“潜在目标组织机构名称1”的频次,这也是弥补分词识别软件召回率的一种有效方式。第四步:对召回的全部“潜在目标组织机构名称1”进行年度频差计算。年度频差指同一组织机构名称当年的频次减去上一年的频次所得的差值。年度频差反映了组织机构名称在当年的媒体关注度是否有所提高。我们通过给涨幅比例设置一定阈值,可以将把频差大但涨幅比例过低的组织机构名称过滤出去。

探索组织机构名称动态观测的方法

新闻文本对组织主体的观测是一项基础而有意义的工作。这项工作应该包括以下部分:组织机构名称的提取、组织机构名称的文本外信息(如时间、文本标题、报纸名等)的提取、组织机构名称上下文相关信息的提取(如表示舆论倾向、作者情感倾向的词语等)、同时段不同领域组织机构名称分布情况测量等。其中最基本的观测对象就是对组织机构名称在媒体上出现次数的观测。而对出现次数不同角度的统计又能产生一些有意义的结果。如,一个组织机构名称在短时间内出现次数从低频到高频的突然变化,就反映了这个组织在短时间内的新闻影响力和媒体关注度。一个组织机构名称在某一领域内一直处于高频的位置,往往说明这个组织在该领域内的地位、影响力。

本书仅从一个角度来探索组织机构名称的动态观测方法,体现观测价值,即如何观测得到年度组织机构名称。

目前语言资源动态观测的基本技术路线大体如下。

1.基于分词标注+频次统计

采用这种技术路线的包括香港城市大学语言资讯科学研究中心发布双周或年度“名人榜”,国家语言监测与研究中心报告平面网络、有声网络、网络媒体用词,中国科学院计算所和富士通联合的热点人名观测发布。

2.全切分+流通度计算

采用这种技术路线的包括:国家语言监测与研究中心的中国报纸、广播、电视年度十大流行语发布,平面媒体分中心的中国主流报纸十大流行语发布等。

分词标注和全切分都是词语提取的方法。频次统计和流通度计算则是词语统计的方法。与以上路线类似,年度组织机构名称的观测也包括提取和统计两个步骤。对于组织机构名称的提取而言,我们可以从是全切分还是分词标注中进行甄选。全切分,即根据不同字段将一个文本进行均匀切分,产生几种切分结果。如切分成1~9字段,则产生九种切分后的字符碎片库。然后对每一种字段的碎片库进行频次计算,获取有效字段。全切分的优势是保证了词语无遗漏,所以能发现新词语、流行语。劣势是要从庞大的碎片库中得到最后的结果,硬件开销和人力需求非常大。由于组织机构名称一般频次低、字数不固定、用字普通,从浩如烟海的全切分字段中得出组织机构名称难度很大。

分词标注的优势是便捷,劣势是受限于分词软件的识别水平,且难以发现新词语。但我们认为在组织机构名称观测方面可以运用中文分词软件来进行组织机构名称提取。从本书对组织机构名称分布特征的考察结果可知,如果先通过分词系统提取全部组织机构名称,再滤除频次为1和2的组织机构名称,将余下的组织机构名称返回到未经分词的原文本中进行搜索,召回未识别的组织机构名称,重新统计频次。这样,既能保证召回率,也能保证精确率。当分词软件的识别精度逐步提高后,特别是在进一步开发出适合语言资源观测的分词软件后,基于分词标注系统的组织机构名称观测工作也将得以继续向纵深发展,获得更多有意义的观测结果。

第一步:在通过分词标记提取组织机构名称后,接下来进行统计筛选工作。根据对组织机构名称分布特征考察所得的结果,我们设计了年度组织机构名称获取流程,如图9-1所示。

图9-1 年度组织机构名称获取流程图

第二步:对提取结果进行频次计算,进行第一次过滤。“过滤1”是将频次为1和2的组织机构名称识别结果滤除。因为组织机构名称在历时语料库中频次过低,就不可能成为年度组织机构名称。另外,根据考察,频次为1和2的组织机构名称识别错误率很高,且种数相当高,因此有必要进行滤除。组织机构名称过滤后的结果即为“潜在目标组织机构名称1”。

第三步:在原始文本中通过匹配的方式重新计算“潜在目标组织机构名称1”的频次,这也是弥补分词识别软件召回率的一种有效方式。

第四步:对召回的全部“潜在目标组织机构名称1”进行年度频差计算。年度频差指同一组织机构名称当年的频次减去上一年的频次所得的差值。年度频差反映了组织机构名称在当年的媒体关注度是否有所提高。由于受不同年度语料规模的影响,每年语料中出现的组织机构名称数量也不一致,因此需要一个权值对不同年度的组织机构名称频次进行修正。

修正方法有二。

(1)使用修正公式。我们提出的修正公式如下:(www.xing528.com)

F'y=kFy

式中,

Fy——当年经分词得到的组织机构名称频次;

F'y——经修正的组织机构名称频次;

k——修正权值;

Fy-m——m年前一整年的组织机构名称频次;

Fy+n——n年后一整年的组织机构名称频次。

当只考虑三年的组织机构名称发展变化时,公式如下:

(2)直接用频率差。因频率的数值微小,所以需要扩大数值倍数。本书暂使用第一种修正方法。

第五步:“过滤2”根据年度频差大小排序,根据频差的阈值进行过滤以获得“潜在目标组织机构名称2”。

第六步:涨幅比例计算。计算年度频差时,虽已进行了一定的频次修正,降低了语料规模的影响,但它仍是一个绝对数值,受制于自身的频次大小。因此我们引入涨幅比例概念,以更客观地体现组织机构名称的年度特征,高于一定的涨幅阈值的即为“潜在目标组织机构名称3”。涨幅比例即某一词汇的年度频差与上一年频次的比例。设涨幅比例为Z,则涨幅比例计算公式为:

Z= (Fy-Fy-1)/Fy-1

涨幅比例是对频差过滤结果的修正。涨幅比例说明了一个组织机构名称关注度提高的幅度。我们通过给涨幅比例设置一定阈值,可以将把频差大但涨幅比例过低的组织机构名称过滤出去。

第七步:人工干预。检视自动观测结果,原则上不再进行人工干预。但如有分词和词性标注阶段遗留的差错,可在这一步进行人工修正。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈