组织机构的名称与语言资源建设的优化方案

时间：2026-01-24 理论教育安安版权反馈

【摘要】：本书基于计算语言学和语言本体研究的实际，开发建设了组织机构名称相关知识库、数据库和软件系统，并提出了相关标准和规范的建议，从言语资源和数据生产要素的角度看，本书的成果是我国的数据型语言资源的有益补充。③组织机构名称禁用词库：记录11类组织机构名称禁用词性、6类组织机构名称禁用字符串及三大实词中的禁用词。提出了组织机构名称识别的实用方案，并进行了具体实验。

“语言资源”在全世界最早出现在社会语言学奠基者和语言社会学创始人费什曼（Joshua Aaron Fishman）在1973年的论述中：“语言跟农业、工业、劳动力、水电等资源不同……显然只是从其具有价值的意义上讲，语言才是一种资源。……无论怎么说，语言都是一种特殊资源，很难用现有的成本-效益理论来管理。原因是我们很难对语言进行度量，也很难把它同其他资源分割开来。然而，我们仍有足够的理由探讨语言与其他资源以及资源规划之间的异同。”（费什曼，2001；Fishman，1973）

中国最早使用“语言资源”概念是在20世纪80年代。邱质朴从信息化、语言教学、语言规划等角度讨论语言资源的开发问题（邱质朴，1981）。《语文建设》1988年发表了澳大利亚著名的语言规划学家楼必安可（Lo Bianco）的《澳大利亚的国家语言政策》，对澳大利亚语言资源理念及相关措施的介绍已经较为详细（楼必安可，1988）。

但以上提及的“语言资源”概念还停留在非信息时代。信息时代到来以后，中国的语言文字信息处理事业发展一直在努力追赶世界先进水平，有些技术的应用已经处在世界第一方阵。语言文字信息处理的重要基础是语言数据库，因此中国计算语言学人能够从信息化的时代高度来认识语言资源。根据时任教育部语言文字信息管理司司长李宇明教授的回忆，在2004年前后，张普教授已建立起成熟的动态流通语料库，他常与司长李宇明教授和副司长王铁琨教授等讨论语言资源问题。最终国家语言资源监测与研究中心2004年6月正式挂牌，并逐渐建立了平面媒体（北京语言大学，最早建立动态流通语料库）、有声媒体（中国传媒大学）、网络媒体（华中师范大学）、少数民族语言（中央民族大学）、教育教材（厦门大学）、海外华语（暨南大学）6个分中心和中国语言资源开发应用中心（商务印书馆）。2005年7月，时任国家语言文字工作委员会主任袁贵仁指出“语言资源是重要的信息资源和文化资源”。语言资源理念在国家语言规划中得到确立（李宇明，2019）。

张普教授将国家语言资源分为语言资源、言语资源和语言学习资源。他呼吁定期对国家语言资源进行监测与研究。其中言语资源是从语言使用的角度建立的语言资源，是语言的社会应用资源。他认为各种语料库、与语料的加工处理相关的知识库、数据库，以及有关的语言文字处理标准和规范都属于言语资源（张普，2007）。李宇明教授将语言资源分为口头语言资源、书面语言资源和语言衍生资源，包括语言知识、语言技术、语言艺术、语言人才等（李宇明，2019）。

2019年10月召开的中国共产党十九届四中全会，提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”，把数据与“劳动、资本、土地、知识、技术、管理”并列为七大生产要素，可以通过市场“按贡献取酬”。这是重大的理论创新，体现着对信息化社会的本质认识，是在数字经济快速发展背景下经济制度的与时俱进（李宇明，2021）。

本书基于计算语言学和语言本体研究的实际，开发建设了组织机构名称相关知识库、数据库和软件系统，并提出了相关标准和规范的建议，从言语资源和数据生产要素的角度看，本书的成果是我国的数据型语言资源的有益补充。具体来说，本书在语言资源领域的贡献如下。

1.语言数据类资源

整合多个语料库、数据集，在大数据的基础上建立了组织机构名称数据库。基于动态流通语料库主流报纸媒体五年1360416个文本16亿字节的语料，建立组织机构名称数据库，包括两个主数据库和五个子数据库。

（1）两个主数据库

①组织机构名称原始信息库：记录3954716个组织机构名称识别结果及其词性标记（ORG、AORG）、文本领域属性、时间属性、上下文信息等原始属性。

②组织机构名称总表：记录615681种组织机构名称识别结果，进行中心词标记和二次分词，记录字长、词长、频次、频率、累加频率、文本散布数、不同领域分布数、不同报纸分布数、不同年度分布数等统计数据。

（2）五个子数据库

①组织机构名称用字库：记录组织机构名称总表全部5241种23130786个字符。

②组织机构名称用词库：记录组织机构名称总表前60万组织机构名称使用的36类70110种2352589个词。(https://www.xing528.com)

③组织机构名称禁用词库：记录11类组织机构名称禁用词性、6类组织机构名称禁用字符串及三大实词中的禁用词。

④常用组织机构名称库：经人工校对获得15970条正确组织机构名称，累加频率70％。

⑤组织机构名称简称、全称对照词表：通过机器学习与人工干预结合、机器自动识别的方式，基于15970条正确组织机构名称，匹配其简称、全称形式。

在此两大数据库和五大数据表基础上形成了组织机构名称中心词表、用字表、用词表等子表，还形成了组织机构名称在真实媒体文本中的分布数据，包括频率分布数据、媒体分布数据、历时分布数据、领域分布数据、字长分布数据等。

2.语言知识类资源

（1）界定组织机构名称的内涵和外延；厘清组织机构名称与非组织机构名称的界限。

（2）对组织机构名称的结构模式、上下文搭配规则、全称简称缩略规则都进行了总结和数学表达。

（3）对组织机构名称的成分进行分类统计、分析，形成了一套规则知识。

（4）提出领域表征值、字用指数概念形式化分类和公式，并用实验证明它可以用来服务于组织机构名称全称和简称的识别。

3.语言技术类资源

（1）提出组织机构名称简称识别模型。

（2）在定中名词短语结构框架内，确定了组织机构名称的伪搭配、间接搭配、直接搭配在消除歧义和浅层句法分析方面的应用价值。

（3）提出了组织机构名称识别的实用方案，并进行了具体实验。如通过禁用词性自动过滤了85700种识别错误组织机构名称，占种数13.92％；通过禁用词自动过滤了44307种识别结果，占种数7.20％；通过非组织机构名称中心词自动过滤了11711种识别结果，占种数1.9％，占总数9.2％。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

组织机构的名称与语言资源建设的优化方案

相关推荐

组织机构的名称与语言资源建设的优化方案

相关文章：

相关推荐