从本语料库中提取的组织机构名称共计615681条,词语总数达到3954716[3]。平均每个组织机构名称出现的频次为6.423。也就是说,语料库里每100个不同词语中,约有7个是组织机构名称。而在整个词语中,每100个词语中可能出现的组织机构名称为1.6个。因而组织机构名称的平均频次只相当于整个词语平均频次的1/5~1/4(表3-5)。
表3-5 组织机构名称研究语料库中的组织机构名称规模
组织机构名称资源库包括三个主数据库和五个子数据库。三个主数据库是组织机构名称原始信息库、组织机构名称总表、组织机构名称分布数据库。
1.组织机构名称原始信息库
组织机构名称原始信息库是整个资源库建设的基础。数据包括序号、组织机构名称、上下文窗口、文本领域属性、词性标记(ORG、AORG)、时间属性、文本路径等原始属性。现对该数据库各字段进行说明见表3-6。图3-1为组织机构名称原始信息库样例。
表3-6 组织机构名称原始信息库结构说明
① 有时也被标记为简称(J)、专名(NZ)等,这里只考虑AORG、ORG两种标记属性。
图3-1 组织机构名称原始信息库样例
2.组织机构名称总表
组织机构名称总表是整个组织机构名称资源库的核心。它集中体现了组织机构名称的主要统计信息,其余大部分数据表将直接或间接由此产生。存储的数据包括序号、组织机构名称、中心词、二次分词词串、字长、词长、频次。现对各字段进行简要说明,见表3-7。
表3-7 组织机构名称总表字段说明
① 除1899个无中心词的组织机构名称的中心词标记为“NULL”外,其余613782个组织机构名称均有明确的中心词标记。共包括19个非组织机构名称中心词、8个小概率组织机构名称中心词、52个单义组织机构名称中心词、26个兼类组织机构名称中心词、25个组织机构名称简称中心词。
3.组织机构名称分布数据库
组织机构名称分布数据库是组织机构名称分布特征考察的主要依据。存储字段包括序号、组织机构名称、频率、累加频率、文本散布数、领域分布数、报纸分布数、年度分布数等统计数据。存储数据的顺序同组织机构名称总表。现对各字段进行简要说明,见表3-8。
表3-8 组织机构名称分布数据库字段说明
五个子数据库分别是组织机构名称用字库、组织机构名称用词库、组织机构名称禁用词库、常用组织机构名称库、组织机构名称简称全称对照词表。
1.组织机构名称用字库(www.xing528.com)
该字库是组织机构名称字符使用情况考察的依据。存储字段为序号、字符、频次、频率、累加频率。现对各字段进行简要说明,见表3-9。
表3-9 组织机构名称用字库字段说明
2.组织机构名称用词库
该词库是组织机构名称用词和结构规则、构成成分考察的数据基础。存储字段为序号、词语、词性、中心词、频次、频率、累加频率。该词库是组织机构名称规则知识研究的重要数据基础。现对各字段进行简要说明,见表3-10。
表3-10 组织机构名称用词库字段说明
续表
① 如当考察“公司”类组织机构名称用词情况时,可直接从《组织机构名称用词库》中生成中心词字段为“公司”的组织机构名称用词表。
3.组织机构名称禁用词库
该词库是在组织机构名称用词研究基础上得到的结果,是组织机构名称用词库的子集。禁用词是指不能出现在组织机构名称中的词语或字符串。本数据库记录了11类组织机构名称禁用词性、6类组织机构名称禁用字符串和三大实词(名词、动词、形容词)中的禁用词。禁用词性、禁用字符串被完全收录。而禁用名词、禁用动词和禁用形容词仍在不断更新中。
4.常用组织机构名称库
该数据库是对组织机构名称总表经人工校对的结果。通过组织机构名称禁用词库的过滤和人工校对,我们获得了15970条正确的组织机构名称,累加频率70%。数据库包括5年内6份报纸16亿字节中主要使用的组织机构名称,可作为组织机构名称表直接用于分词标记系统。
5.组织机构名称简称全称对照词表
该数据库来源于组织机构名称总表中的15000多对简称全称,主要用于组织机构名称缩略规则研究。该数据库的字段包括序号、简称、简称频次、全称、全称频次、总频次、简称比例。现对各字段进行简要说明,见表3-11。
表3-11 组织机构名称简称全称对照词表字段说明
① 一个简称有时对应多个全称,一个全称有时对应多个简称,这种情况会影响到统计的准确性,因此将这种组织机构名称简称、全称存在一条数据里,具体数据另存。如将“中央电视台”频次存入全称频次,而简称中存入“CCTV/中央台/央视”三个简称形式,将其总频次作为简称频次存入。而具体每个简称的频次单独存于附表中。它是考察一个组织的多种组织机构名称真实分布情况的基础。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。