首页 理论教育 组织机构名称研究数据库的规模和结构优化

组织机构名称研究数据库的规模和结构优化

时间:2023-07-05 理论教育 版权反馈
【摘要】:表3-8组织机构名称分布数据库字段说明五个子数据库分别是组织机构名称用字库、组织机构名称用词库、组织机构名称禁用词库、常用组织机构名称库、组织机构名称简称全称对照词表。

组织机构名称研究数据库的规模和结构优化

从本语料库中提取的组织机构名称共计615681条,词语总数达到3954716[3]。平均每个组织机构名称出现的频次为6.423。也就是说,语料库里每100个不同词语中,约有7个是组织机构名称。而在整个词语中,每100个词语中可能出现的组织机构名称为1.6个。因而组织机构名称的平均频次只相当于整个词语平均频次的1/5~1/4(表3-5)。

表3-5 组织机构名称研究语料库中的组织机构名称规模

组织机构名称资源库包括三个主数据库和五个子数据库。三个主数据库是组织机构名称原始信息库、组织机构名称总表、组织机构名称分布数据库。

1.组织机构名称原始信息库

组织机构名称原始信息库是整个资源库建设的基础。数据包括序号、组织机构名称、上下文窗口、文本领域属性、词性标记(ORG、AORG)、时间属性、文本路径等原始属性。现对该数据库各字段进行说明见表3-6。图3-1为组织机构名称原始信息库样例。

表3-6 组织机构名称原始信息库结构说明

① 有时也被标记为简称(J)、专名(NZ)等,这里只考虑AORG、ORG两种标记属性。

图3-1 组织机构名称原始信息库样例

2.组织机构名称总表

组织机构名称总表是整个组织机构名称资源库的核心。它集中体现了组织机构名称的主要统计信息,其余大部分数据表将直接或间接由此产生。存储的数据包括序号、组织机构名称、中心词、二次分词词串、字长、词长、频次。现对各字段进行简要说明,见表3-7。

表3-7 组织机构名称总表字段说明

① 除1899个无中心词的组织机构名称的中心词标记为“NULL”外,其余613782个组织机构名称均有明确的中心词标记。共包括19个非组织机构名称中心词、8个小概率组织机构名称中心词、52个单义组织机构名称中心词、26个兼类组织机构名称中心词、25个组织机构名称简称中心词。

3.组织机构名称分布数据库

组织机构名称分布数据库是组织机构名称分布特征考察的主要依据。存储字段包括序号、组织机构名称、频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。存储数据的顺序同组织机构名称总表。现对各字段进行简要说明,见表3-8。

表3-8 组织机构名称分布数据库字段说明

五个子数据库分别是组织机构名称用字库、组织机构名称用词库、组织机构名称禁用词库、常用组织机构名称库、组织机构名称简称全称对照词表。

1.组织机构名称用字库(www.xing528.com)

该字库是组织机构名称字符使用情况考察的依据。存储字段为序号、字符、频次、频率、累加频率。现对各字段进行简要说明,见表3-9。

表3-9 组织机构名称用字库字段说明

2.组织机构名称用词库

该词库是组织机构名称用词和结构规则、构成成分考察的数据基础。存储字段为序号、词语、词性、中心词、频次、频率、累加频率。该词库是组织机构名称规则知识研究的重要数据基础。现对各字段进行简要说明,见表3-10。

表3-10 组织机构名称用词库字段说明

续表

① 如当考察“公司”类组织机构名称用词情况时,可直接从《组织机构名称用词库》中生成中心词字段为“公司”的组织机构名称用词表。

3.组织机构名称禁用词库

该词库是在组织机构名称用词研究基础上得到的结果,是组织机构名称用词库的子集。禁用词是指不能出现在组织机构名称中的词语或字符串。本数据库记录了11类组织机构名称禁用词性、6类组织机构名称禁用字符串和三大实词(名词、动词、形容词)中的禁用词。禁用词性、禁用字符串被完全收录。而禁用名词、禁用动词和禁用形容词仍在不断更新中。

4.常用组织机构名称库

该数据库是对组织机构名称总表经人工校对的结果。通过组织机构名称禁用词库的过滤和人工校对,我们获得了15970条正确的组织机构名称,累加频率70%。数据库包括5年内6份报纸16亿字节中主要使用的组织机构名称,可作为组织机构名称表直接用于分词标记系统。

5.组织机构名称简称全称对照词表

该数据库来源于组织机构名称总表中的15000多对简称全称,主要用于组织机构名称缩略规则研究。该数据库的字段包括序号、简称、简称频次、全称、全称频次、总频次、简称比例。现对各字段进行简要说明,见表3-11。

表3-11 组织机构名称简称全称对照词表字段说明

① 一个简称有时对应多个全称,一个全称有时对应多个简称,这种情况会影响到统计的准确性,因此将这种组织机构名称简称、全称存在一条数据里,具体数据另存。如将“中央电视台”频次存入全称频次,而简称中存入“CCTV/中央台/央视”三个简称形式,将其总频次作为简称频次存入。而具体每个简称的频次单独存于附表中。它是考察一个组织的多种组织机构名称真实分布情况的基础。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈