很多语言学大家都用各自的表述方式表达过语言的生态特征。
北京大学理论语言学家叶蜚声和徐通锵先生说:“语言……无时无刻不在变化,只是变化的速度缓慢,不被人们感觉到罢了。但是时间久了,细微的变化日积月累,就反映出语言在不同时代的明显差异。”(叶蜚声、徐通锵,2010)
社会语言学家陈原先生说过,“变异是普遍存在的一种社会语言现象”,“在某种意义上说,社会语言学的中心问题就是变异”。(陈原,1983)
北京语言大学计算语言学家张普教授说:“语言一经应用就有动态和稳态两个部分。动态是语言的恒态,是语言的生态,是语言的长久的、不变的状态;稳态是语言的常态,是语言的健康态,是语言的最基本的、最经常的、最通常的状态。”(张普,2008;张普,2009)
清华大学/微软中国研究院研究员、自然语言处理专家黄昌宁教授说:“语言是动态的而非静止的,语言在运用中不断地产生变化,语言的生命力就在于这种稳定中的变化。这些变化的端倪就隐藏在大规模的真实文本(无论它们是经典的还是非经典的文本)之中,甚至就隐藏在那些非规范现象里。”(黄昌宁,1993)
黑龙江大学语言学家戴昭铭教授说:“世界上绝没有恒定不变的事物和绝对相同的现象,语言文字也不例外。”(戴昭铭,1998)
戴昭铭教授的老师、黑龙江大学语言学家吕冀平先生在评价戴昭铭的贡献时说“……写出《规范化——对语言变化的评价和抉择》,从而否定了单纯匡谬正俗的规范工作模式,提出新型的动态规范观念和动态规范模式。”(戴昭铭,1998)
从以上学者的表述中,我们可以看到,在理论语言学、社会语言学、计算语言学、语言规范化研究领域,对语言的认识都是一致的——稳定中的动态变化,即稳态和动态的结合。这就是语言的生态观。
针对语言稳态和动态结合的生态本质,张普教授提出“动态语言知识更新理论”。他认为应该“随着社会语言交际的变化,在较短的时间里定期地或者即期地更新语言知识及其规范。”因为“词汇知识和语义知识是变化较快的部分。动态语言知识的更新研究首先从词汇和语义知识开始”。(张普,2001)
与动态相对的是语言的稳态或者说常态。语言有了稳态,作为交际工具才能具有稳定性、传承性、社会性,才能很好地服务人类社会;语言的动态变化,是语言的非常态,进入现代社会,非常态的变化更频繁、更明显,及时跟进非常态的变化,并对非常态的变化作出反应,这样作为交际工具的语言才能更好地为现代社会服务。我们透过对语言的动态的历时观测,既观测到语言的稳态,即语言的健康态,也观测到语言的动态,即语言的生态,即观测到语言及其成分变化发展的全过程。
我们注意到,出现在国家大众传媒上的用字、用词、用语并不都是稳态的,即使出现在综合类的大众传媒上的用字、用词、用语也不都是通用的、稳态的。对国家语言资源各个时点、时段、时期的字、词、语的稳态部分的观测、描写、刻画、发布,有利于引导通用语言文字的有序使用和健康发展,是国家语言资源监测与研究中心的重要观测任务。
“我们认为:语言的社会应用,是在稳态的基础上,不断动态更新;在动态更新的基础上,又不断形成新的稳态,如此循环往复螺旋上升。这不仅是语言发展的健康状态,也是我们的语言和应用语言学研究的科学发展观。我们认为当前语言生态的研究目标首先是国家通用语言文字,并且首先是对其词语及其用字的考察。我们还认为,为了准确而清晰地考察通用语言的词语及其用字真实状态,首先就要把词语及用字的稳态部分与动态部分分离开,而稳定度的计算是分离的前提。”(张普,2008)
我们认为语言的稳态观和动态观是反映语言实态的语言观,是科学的语言观。对组织机构名称的研究也要历时和共时相结合。我们既要将时间作为一个“时点”在共时平面上深入研究组织机构名称的规则知识,又将其作为一个“时段”,在多个“时点”的参照下研究组织机构名称的历时分布和组织机构名称自身的动态变化趋势。比如,我们目前认为不能作为组织机构名称成分的词,随着词汇系统的发展,将来却可以作为组织机构名称成分。目前认为组织机构名称识别错误的结果,也许将来就是组织机构名称。当然,尽管如此,只要我们的考察是写实的,就可以在很大程度上反映较长一段时间内组织机构名称的概貌。要使我们的认识不断实时地反映组织机构名称的真实面貌,就要动态地对其进行跟踪研究。
2004年由教育部语言文字信息管理司联合高校研究机构创建了国家语言资源监测与研究中心,它作为一个系列工程列入了教育部新教育振兴行动计划[5],是我国第一个专门的语言观测与研究机构。它的成立和发展目的在于对国家语言资源进行动态分析、管理,并运用现代化手段加以处理和利用,提高汉语在世界上的影响力。国家语言资源监测与研究中心现已建成平面媒体、有声媒体、网络媒体、少数民族语言、教育教材、有声媒体及海外华语6个分中心。
2005年开始,各大分中心以动态语言知识更新和语言资源监测理论为指导,按照主流报纸动态流通语料库的建库方式,建立了各自的语料库。这些语料库综合起来被称为国家语言资源监测语料库。其语料主要依据流通度采自平面、有声、网络等大众传媒,这些传媒的语料大多是综合性的和通用性的,是在全国范围内流通传播的。例如:2006年的国家语言资源库采集了15家主流报纸、10家电视台、7家广播电台、5家门户网站的语料,共计1311749个文本,1170367879字符次,其中汉字出现978994406字次。
这些语料为观察研究通用语言文字的生态提供了必需的基础动态流通语料。在此语言资源监测与研究中心的资源平台上,我国每年举办“汉语盘点”活动,其资源研究成果成为每年《中国语言生活状况报告》(绿皮书)的重要篇章。这些数据对于《通用规范汉字表》的研制、中小学语文课标和汉语国际教育有关标准的制定、语文教材的编写等,都发挥了一定作用。
现在,更大规模的“国家知识资源数据库”工程已经列入国家文化发展规划纲要并已经启动,成为国家面向知识经济、知识社会的重大战略项目。我们希望:随着“国家知识资源数据库”建设的推进,我们对国家通用语言文字的生态考察与研究将走上与这项国家战略工程相结合、相整合、相融合的道路。国家语言资源虽然只是国家知识资源的一部分,但国家知识资源是建立在国家语言资源的基础之上的。目前国家语言资源库的建设规模虽然暂时受限,但是,一旦与国家知识资源库进行整合,就会证明我们今天对于语言生态的研究是超前的、战略性的,是实战的而不是实验的。(张普,2007)
国家对语言的生态观测与研究,将会在国家更大规模的资源整合中突飞猛进,语言资源与知识资源是不可分割的。在国家语言资源监测语料库基础上,2005年开始,每年各个分中心共同参与发布年度《中国语言生活状况报告》(绿皮书)。2006年,平面媒体分中心、有声媒体分中心联合发布了“2006年中国报纸、广播、电视十大流行语”。2007年,网络媒体亦加入流行语发布工作的行列。从此以后,我国的国家语言资源观测工作得到更加蓬勃的发展。(www.xing528.com)
国家语言资源监测与研究中心的字、词、语的生态观测,是在难以进行人工干预,而不进行干预又会受限和失真的现状下启动的;是在认真分析了目前监测最需要的汉语信息处理技术的基础上作出决策的。我们认为:当前的汉语信息处理技术虽然暂时使观测和研究受到限制,甚至在一定程度上产生失真,但虽受限已经有限、虽有失真毕竟基本传真。(张普,2008)
我们的组织机构名称考察与研究正是在这样的背景下应运而生的。这个工作的基本思路是,在未经校对的组织机构名称识别结果的基础上,初步得到组织机构名称考察与研究结果,并将此研究结果用于组织机构名称识别,校正组织机构名称识别结果,进而在此基础上再修正和验证我们的考察与研究结果。我们还要应用现有的国家语言资源监测语料库和语言资源观测方法对组织机构名称进行动态观测和研究,进一步发掘组织机构名称的资源价值。
组织机构名称在媒体上的表现有两大特点。
(1)规模大。以我国首部《中国语言生活状况报告(2005)》(绿皮书)为例,当年对我国主流报纸、广播、电视、网络词语使用的抽样统计,在超过165万的语料词种数中,组织机构名称约59万条,约占总词种数的35.7%。
(2)不断推陈出新。据香港城市大学LIVAC泛华语地区汉语共时语料库(linguistic variation in Chinese speech communities)的统计资料显示,每年语料中出现的新词语有60%为命名实体(named entity),其中组织机构名称占了相当大的比重。
语言研究者应关注社会语言生活,注意语言应用研究。关注社会就应该对社会语言文字的需求有充分的认识,应该到民众当中去调查,应当用现代化的手段去监测社会语言生活。(许嘉璐,2006)
当前的语言生态研究应该首先研究国家通用语言文字的生态。把词语及其用字的稳态部分与动态部分分离开,而稳定度的计算是分离的前提。当前的语言生态研究重点是语言生态“基因”和语言生态系统。当前对国家通用语言文字的生态研究受到四个方面的条件制约。
从社会学角度看,人类社会活动有三类主体:一是个人,二是松散的团体,三是组织机构。而个人的社会活动往往又代表着组织机构。从语言的角度看,对组织机构名称进行观测,是从语言资源、语言生态角度的观测。从中我们可以看到组织机构在媒体上的活跃程度、领域特征,还可以观测到人们使用组织机构名称的语言习惯。比如,“中央电视台”一实多名,中央电视台、央视、CCTV、中央台,人们在媒体上的语言习惯中,究竟何时使用哪种名称?其语言习惯是否随着时间的变迁有变化?再如,“人大”属于一名多实,既表示“人民代表大会”,也表示“人民大学”,其语言搭配有何特征?
在当今时代,“组织在我们的生活中占据着中心位置”(Giddens,2003)。组织机构名称不仅是语言单位,它还和各个领域、行业直接关联,它是语言资源,更是社会管理资源。媒体上的历时的分领域、分报纸分布的组织机构名称,实际上表征着各行各业各组织机构在媒体关注、社会发展中的稳态和动态。对组织机构名称的考察与研究不仅是语言的稳态和动态观测研究,更是针对组织、行业、领域、社会的稳态和动态的观测与研究。从这个角度看,本研究也是从计算语言的角度计算社会,可谓是计算社会科学的一部分。正如中国人民大学孟小峰教授所言:“计算社会科学固然可以推动人工智能对人类智能的‘了解’,但最终效果依旧有赖于计算社会科学本身对人类的认知。”(孟小峰,2019)
新闻文本中的组织机构名称和各个领域、行业直接关联,其动态统计特征表征着各行各业各组织的媒体关注度和发展趋势,对其进行观测和发布是对组织、行业、领域、社会的研究。如果我们可以利用观测数据和方法,定时发布最具媒体影响力的十大企业、十大高校、十大政府机构等组织机构名称,对社会各行各业进行动态跟踪观测,将是一项开先河的工作。这对于研究中国社会行业、管理中国组织机构具有一定的社会价值。同时,在本研究的基础上可以了解我国机构、企业单位、团体的命名使用情况。对媒体上的组织机构名称的观测,实际上也是辅助管理部门和执法部门对组织机构的管理观测。在信息化时代里,组织机构名称观测在社会管理等领域的应用价值将是很可观的。
本研究是首次对大规模的组织机构名称的考察工作。具体来说,本研究基于16亿字节的大规模主流报纸动态流通语料库,对2002—2006年期间6份主流报纸10个领域类全部语料上的组织机构名称进行了摸底考察。一方面,全面了解了媒体上的组织机构名称分布情况和我国组织机构名称使用情况,另一方面,本研究的组织机构名称观测与发布工作模式的探索实验也可作为今后的国家语言资源观测与发布工作的重要参考。
“要实施语言监测,基础条件有两个:一是必须掌握一定的语言资源,具体来说,就是需要建设一个动态流通语料库,语料库采样的典型性、代表性及其规模的适中性,将决定语言监测的范围和质量;二是需要一个功能比较强大的软件包,具体来说,就是一个包括分词标注及各种检索、统计功能的软件包,这套工具功能是否齐全、技术是否先进,也会影响和制约语言监测的结果和质量。”(侯敏,2007)从这个意义上说,我们的研究成果将有助于提高组织机构名称识别精度,因此也能够更好地为语言资源监测工作服务。
当前的中文分词系统的分词原则和词表决定了分词结果词多语少,大量新词语呈现出碎片状态。而语言资源观测的重点对象应该是语(multi-word structure),如新词语、流行语、术语、惯用语。因此,针对传统的中文分词系统难以完成语言观测的任务,我们需要更切合语言资源观测任务的中文分词系统。本研究的对象为未登录词中识别难度最大的一类词语,研究的基础资源来自国家语言资源监测与研究中心,所以本研究可直接为语言资源观测现有的中文分词系统提供服务,也为语言观测的新的中文分词系统的研制做前期预研工作。
本研究在语言生态观测上主要工作如下。
(1)对历时大规模媒体文本中的组织机构名称进行了频次分布、领域分布、媒体分布、字长分布等多维度的分布特征统计分析。
(2)探讨组织机构名称动态监测的意义和价值,以“年度组织机构名称监测”为例,提出了相关计算公式,对组织机构名称进行了动态观测实验,结果令人满意。
(3)对媒体上出现的60多万组织机构名称中的突出现象进行了跟踪分析和预判。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。