首页 理论教育 组织机构名称的领域分布调查与分析

组织机构名称的领域分布调查与分析

时间:2023-07-05 理论教育 版权反馈
【摘要】:由于将全部《法制日报》的新闻语料都归入了法制领域,从比值上看,法制类领域的组织机构名称密度较小,实际上应该高于这个密度。因此我们初步规定一个组织机构名称最高领域表征值对应的领域为组织机构名称所属的领域。表4-11为277个高频组织机构名称领域表征情况统计表。

组织机构名称的领域分布调查与分析

组织机构名称属于专名,或者说命名实体。这类词语的基本特征就是领域相关性。对于报纸语料而言,地名、人名、组织机构名称的领域属性呈逐步增强趋势。其中地名的领域特征最弱,组织机构名称的领域特征最鲜明。地名、人名、组织机构名称三种命名实体的领域特征比较见表4-6。

表4-6 三种命名实体的领域特征比较

当然,需要明确的一点是,某一领域的组织机构名称可以出现在任何其他的领域文本中。我们这里只考察领域文本中的组织机构名称分布情况。十类领域文本的组织机构名称分布统计见表4-7。

表4-7 十类领域文本的组织机构名称分布统计

从领域类看,政治类语料出现的组织机构名称种类最多,其次为生活体育领域,科技类语料的组织机构名称种类排在倒数第二,环境类语料的组织机构名称种类最少。

组织机构名称总数在词语总数中的比例反映了组织机构名称的密度。比值越高,密度越大;比值越低,密度越小。表4-7说明,总体上军事领域的组织机构名称密度最大,其次是政治类、环境类和体育类。组织机构名称密度最小的是生活类和文化类。由于将全部《法制日报》的新闻语料都归入了法制领域,从比值上看,法制类领域的组织机构名称密度较小,实际上应该高于这个密度。总体上来说,这个比值基本符合我们的语感,因为军事、政治、环境、体育领域所报道的新闻内容显然主要体现的是组织活动。组织机构名称的出现较其他领域更为集中。而文化生活方面,个人色彩更重。

不同领域内组织机构名称种数与其所在领域类所有词语种数的比值反映出组织机构名称的丰富程度。从表4-8中数据中,我们可以看到,法制类、经济类的组织机构名称种数在各领域类词语种数中的比值是最高的。其比值高于所有领域类的平均比值0.0043。而生活类、体育类和文化类组织机构名称种数与其所在领域类词语种数的比值是最低的。这也基本符合我们的语感。法制领域的组织机构名称种数比值最高,一方面是由于法制领域除关系到行政司法审判等组织外,法制领域还是凌驾于其他所有领域的一种领域,因为涉及法制事件的组织可以是任何领域的组织。另外因为在文本分类中将全部《法制日报》语料归入法制领域,而《法制日报》的社会关注度实际上又是很高的。这在一定程度上决定了法制类组织机构名称比值较高,所以组织机构名称的种类也会相应增多。经济是我国建设的中心,所以经济领域中,各种组织的活动也是最活跃的,组织也是最丰富的。

表4-8 十类领域文本内组织机构名称种数占词语种数比值

将表4-7和表4-8对照,分析每一个领域的升降,实际上反映了另外一个问题,也就是领域类中组织机构名称的集中程度。例如,在表4-7中军事领域排第一位,表4-8中军事领域排第五位,可见军事领域的组织机构名称种类并不多,而总数较多,所以军事领域的组织机构名称相对集中,如一小部分组织机构名称的“出镜率”相当高,美军、以军、北约、英军、美国国防部、伊拉克政府等组织名称高居军事领域榜首,占军事领域组织机构名称总数17.2824%,而这6个组织机构名称在语料库全部组织机构名称中的频率为1.3212%。说明这些组织机构名称主要在军事领域中使用。

从表4-9可得出两个结论。第一,各领域独用组织机构名称种数的比例较高,平均达到56.63%的独用率。特别是体育和法制领域的组织机构名称种数独用比例高达71.40%和68.18%。第二,独用组织机构名称的频次低。组织机构名称的平均频次为6.42332,而十个领域独用组织机构名称平均频次为1.7150。这个结果符合我们的预期,理由有以下两点:首先,在识别结果中,80%的组织机构名称只出现一两次,这些组织机构名称必然是领域独用组织机构名称;其次,高频组织机构名称在每个领域中都有可能出现,因此其领域特征确实不明显。这又启发我们,在领域分类问题上可以适当增加领域特征鲜明的组织机构名称来提高领域分类质量。

表4-9 各领域独用的组织机构名称概况

前面我们考察了领域内组织机构名称的分布情况,下面我们对领域共用组织机构名称进行考察。根据考察,十个领域共用组织机构名称共有200个,总频次达106155,在组织机构名称总数中的比例达2.8673%。领域共用组织机构名称一般都是高频组织机构名称,但高频组织机构名称不都是共用组织机构名称。如最高频的30个组织机构名称中,中国队、中国足协、韩国队、最高人民法院、安理会、北京队、中国女足这7个并不是领域共用组织机构名称。

下面我们进行了组织机构名称领域分布实验,了解资源库中的组织机构名称的领域分布特征,进而探索这些领域分布特征的应用价值。

由于绝大多数组织机构名称具有低频特征,加之分词标注系统性能的限制,我们的实验对象应尽可能选取高频组织机构名称。在本实验中,我们选取频次大于1000的277个组织机构名称。从数据上看,277个组织机构名称在所有领域类中均有分布。这说明了两个问题:①某一领域的文本中可出现多种组织机构名称,一个组织机构名称可出现在多个领域的文本中;②组织机构名称的领域特征只有强和弱的区别,没有有和无的区别。

我们从十个领域类组织机构名称总表中统计了277个组织机构名称的领域分布情况。表4-10是9个高频组织机构名称领域表征值。

表4-10 9个高频组织机构名称领域表征值一览

续表(www.xing528.com)

我们将一个组织机构名称在某一领域内分布的频次与其在所有领域中分布的总频次的比值定义为它的领域表征值。顾名思义,领域表征值表征的是一个组织机构名称的领域特征。因此我们初步规定一个组织机构名称最高领域表征值对应的领域为组织机构名称所属的领域。领域表征值越接近1,说明组织机构名称专属于某一领域的领域特征越鲜明。领域表征值越接近0.1,标明该组织机构名称的领域特征越模糊,也意味着该组织机构名称可能已经进入了领域通用词语范畴。之所以规定0.1的表征值,是因为这里将文本分为十类领域,在理想状态下,当一个组织机构名称在每一个领域中的分布是相同的,那么其领域特征值则为0.1。表4-11为277个高频组织机构名称领域表征情况统计表

表4-11 277个高频组织机构名称领域表征情况统计表

从词总数、词种数看,表征为政治领域、体育领域的组织机构名称分布最多,其他领域的组织机构名称都较少。环境、科技领域组织机构名称分布最少。而从各个领域的组织机构名称领域表征平均值来看,很显然,体育类组织机构名称的领域特征最鲜明,法制类其次。而教育类组织机构名称从总数和种数看都排第七位,但在各领域中的领域特征最模糊。由于环境领域中出现的组织机构名称整体量级小,加之领域特征模糊,所以在最后的“最高领域”统计中自动消失了。

最高领域表征值只能表征组织机构名称分布最多的一个领域。但前面我们提过,一个组织机构名称的领域表征值越接近0.1,则意味着该组织机构名称进入通用词语的概率越大。在领域独用和领域共用中间有较大的模糊地带,其中包含着大量若干领域共用组织机构名称等。考察组织机构名称的领域分布,仅考察组织机构名称分布最多的领域是远远不够的,还要进一步考察一个组织机构名称在哪几个领域中分布较多。我们以277个实验对象中的大学名为例,见表4-12。

表4-12 高频大学名领域表征值一览

续表

以上组织机构名称天然上是教育类组织机构名称。以上表格可以说明以下几个问题。

(1)衡量组织机构名称是否进入通用领域,领域分布特征比频次更可靠。更进一步说,对于整个词语系统,高频词语比低频词语更有可能进入通用领域,但更重要的指标还要看一个词语在各个领域中的具体分布情况。如,“中国政法大学”的使用频次约为“北京师范大学”的两倍,但是北京师范大学的领域特征要弱于中国政法大学,表明北京师范大学没有特别与某个领域相关,所以更有可能成为通用组织机构名称。

(2)总体上频次和领域通用程度之间还是有较大的正相关性,特别是对于组织机构名称而言。这是因为低频次本身就制约了组织机构名称的领域分布,一定量的频次保证了组织机构名称领域分布的可能性。从这几个大学名来看,最高频的“清华大学”“北京大学”的领域特征都很弱,而频次较低的这些组织机构名称的领域特征基本上都较强。

(3)除最高领域外,我们还统计了次高领域。次高领域,即在一个组织机构名称的十个领域表征值中次高的值所对应的领域。但这只是简单统计的结构。实际上,当次高领域表征值与最高领域表征值距离悬殊时,这个次高领域表征值就缺乏意义了。如,中国政法大学的最高领域表征值是次高领域表征值的三倍多,相差悬殊。而中国人民大学的政治领域表征值和法制领域表征值十分相近,说明中国人民大学至少在这两个领域上有很强的表征能力。

总体上,以上组织机构名称在教育领域的表征值仍是最高的,其次为政治领域。但具体到每一个组织机构名称,其领域特征又各有不同。以“清华大学”和“北京大学”举例,虽然两个高校都在政治、教育领域方面的领域特征很强,但是清华大学的政治领域特征强于教育领域特征,北京大学的教育领域特征强于政治领域特征。这些领域特征的差异和高校的学科特色、在不同领域上的作为和影响力、该高校在不同领域上的受关注偏向有关。

上述统计调查结果给我们以下启发。

(1)组织机构名称可用于文本分类。对组织机构名称的频次、最高领域表征值、次高领域表征值、第三领域表征值等统计数据设定阈值,选取合适的组织机构名称集合进入表征某一领域的词表,就可以为文本分类服务。

(2)组织机构名称对文本分类的应用价值随领域的不同而有所不同。如在体育类文本中,组织机构名称的领域特征最鲜明,因此组织机构名称发挥的作用最大。在环境类文本中,组织机构名称的领域特征最模糊,因此组织机构名称就缺乏发挥的空间。

(3)对于应对组织机构名称的通用词语研究、领域共用词语研究给予一定的关注。过去我们在词语研究中一贯因组织机构名称的专有性而对其自动忽略。但实际上,部分组织机构名称已进入通用领域,部分组织机构名称不仅专属于一个领域,而成为两个或两个以上领域的共用词语。我们对组织机构名称的领域特征和领域分布的研究,实际上也是关于问题的方法研究和数据实现。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈