首页 理论教育 组织机构的名称与语言资源建设的优化方案

组织机构的名称与语言资源建设的优化方案

时间:2023-07-05 理论教育 版权反馈
【摘要】:本书基于计算语言学和语言本体研究的实际,开发建设了组织机构名称相关知识库、数据库和软件系统,并提出了相关标准和规范的建议,从言语资源和数据生产要素的角度看,本书的成果是我国的数据型语言资源的有益补充。③组织机构名称禁用词库:记录11类组织机构名称禁用词性、6类组织机构名称禁用字符串及三大实词中的禁用词。提出了组织机构名称识别的实用方案,并进行了具体实验。

组织机构的名称与语言资源建设的优化方案

语言资源”在全世界最早出现在社会语言学奠基者和语言社会学创始人费什曼(Joshua Aaron Fishman)在1973年的论述中:“语言跟农业、工业、劳动力、水电等资源不同……显然只是从其具有价值的意义上讲,语言才是一种资源。……无论怎么说,语言都是一种特殊资源,很难用现有的成本-效益理论来管理。原因是我们很难对语言进行度量,也很难把它同其他资源分割开来。然而,我们仍有足够的理由探讨语言与其他资源以及资源规划之间的异同。”(费什曼,2001;Fishman,1973)

中国最早使用“语言资源”概念是在20世纪80年代。邱质朴从信息化、语言教学、语言规划等角度讨论语言资源的开发问题(邱质朴,1981)。《语文建设》1988年发表了澳大利亚著名的语言规划学家楼必安可(Lo Bianco)的《澳大利亚的国家语言政策》,对澳大利亚语言资源理念及相关措施的介绍已经较为详细(楼必安可,1988)。

但以上提及的“语言资源”概念还停留在非信息时代。信息时代到来以后,中国的语言文字信息处理事业发展一直在努力追赶世界先进水平,有些技术的应用已经处在世界第一方阵。语言文字信息处理的重要基础是语言数据库,因此中国计算语言学人能够从信息化的时代高度来认识语言资源。根据时任教育部语言文字信息管理司司长李宇明教授的回忆,在2004年前后,张普教授已建立起成熟的动态流通语料库,他常与司长李宇明教授和副司长王铁琨教授等讨论语言资源问题。最终国家语言资源监测与研究中心2004年6月正式挂牌,并逐渐建立了平面媒体(北京语言大学,最早建立动态流通语料库)、有声媒体(中国传媒大学)、网络媒体(华中师范大学)、少数民族语言(中央民族大学)、教育教材(厦门大学)、海外华语暨南大学)6个分中心和中国语言资源开发应用中心(商务印书馆)。2005年7月,时任国家语言文字工作委员会主任袁贵仁指出“语言资源是重要的信息资源和文化资源”。语言资源理念在国家语言规划中得到确立(李宇明,2019)。

张普教授将国家语言资源分为语言资源、言语资源和语言学习资源。他呼吁定期对国家语言资源进行监测与研究。其中言语资源是从语言使用的角度建立的语言资源,是语言的社会应用资源。他认为各种语料库、与语料的加工处理相关的知识库、数据库,以及有关的语言文字处理标准和规范都属于言语资源(张普,2007)。李宇明教授将语言资源分为口头语言资源、书面语言资源和语言衍生资源,包括语言知识、语言技术、语言艺术、语言人才等(李宇明,2019)。

2019年10月召开的中国共产党十九届四中全会,提出“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”,把数据与“劳动、资本、土地、知识、技术、管理”并列为七大生产要素,可以通过市场“按贡献取酬”。这是重大的理论创新,体现着对信息化社会的本质认识,是在数字经济快速发展背景下经济制度的与时俱进(李宇明,2021)。

本书基于计算语言学和语言本体研究的实际,开发建设了组织机构名称相关知识库、数据库和软件系统,并提出了相关标准和规范的建议,从言语资源和数据生产要素的角度看,本书的成果是我国的数据型语言资源的有益补充。具体来说,本书在语言资源领域的贡献如下。

1.语言数据类资源

整合多个语料库、数据集,在大数据的基础上建立了组织机构名称数据库。基于动态流通语料库主流报纸媒体五年1360416个文本16亿字节的语料,建立组织机构名称数据库,包括两个主数据库和五个子数据库。

(1)两个主数据库

①组织机构名称原始信息库:记录3954716个组织机构名称识别结果及其词性标记(ORG、AORG)、文本领域属性、时间属性、上下文信息等原始属性。

②组织机构名称总表:记录615681种组织机构名称识别结果,进行中心词标记和二次分词,记录字长、词长、频次、频率、累加频率、文本散布数、不同领域分布数、不同报纸分布数、不同年度分布数等统计数据。

(2)五个子数据库

①组织机构名称用字库:记录组织机构名称总表全部5241种23130786个字符。

②组织机构名称用词库:记录组织机构名称总表前60万组织机构名称使用的36类70110种2352589个词。(www.xing528.com)

③组织机构名称禁用词库:记录11类组织机构名称禁用词性、6类组织机构名称禁用字符串及三大实词中的禁用词。

④常用组织机构名称库:经人工校对获得15970条正确组织机构名称,累加频率70%。

⑤组织机构名称简称、全称对照词表:通过机器学习与人工干预结合、机器自动识别的方式,基于15970条正确组织机构名称,匹配其简称、全称形式。

在此两大数据库和五大数据表基础上形成了组织机构名称中心词表、用字表、用词表等子表,还形成了组织机构名称在真实媒体文本中的分布数据,包括频率分布数据、媒体分布数据、历时分布数据、领域分布数据、字长分布数据等。

2.语言知识类资源

(1)界定组织机构名称的内涵和外延;厘清组织机构名称与非组织机构名称的界限。

(2)对组织机构名称的结构模式、上下文搭配规则、全称简称缩略规则都进行了总结和数学表达。

(3)对组织机构名称的成分进行分类统计、分析,形成了一套规则知识。

(4)提出领域表征值、字用指数概念形式化分类和公式,并用实验证明它可以用来服务于组织机构名称全称和简称的识别。

3.语言技术类资源

(1)提出组织机构名称简称识别模型。

(2)在定中名词短语结构框架内,确定了组织机构名称的伪搭配、间接搭配、直接搭配在消除歧义和浅层句法分析方面的应用价值。

(3)提出了组织机构名称识别的实用方案,并进行了具体实验。如通过禁用词性自动过滤了85700种识别错误组织机构名称,占种数13.92%;通过禁用词自动过滤了44307种识别结果,占种数7.20%;通过非组织机构名称中心词自动过滤了11711种识别结果,占种数1.9%,占总数9.2%。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈