据目前资料,国外较为突出的语言观测组织和项目是美国“全球语言监测”(The Global Language Monitor,GLM)。设在美国加州圣地亚哥的GLM通过对媒体的追踪和分析,记录、分析并跟踪世界语言特别是全球英语的进化和死亡,词语使用和选择的最新趋势及其对文化的各个方面的影响,包括对政治、文化、商业的影响,分析行话、娱乐词汇、中国式英语、政治流行语以及关于重大事件的语言的媒体覆盖情况,定期发布英语语言时钟。目前其研究成果被世界六大洲几十家平面媒体和电子媒体引用和参考。[1]
“从对语言资源是最基础的社会资源的认识而言,对中文这一具体的语言资源的开发、管理、应用而言,我国几乎和国际同步,某些方面的认识或举措甚至领先于国际学术界。”(张普,2007)
回顾我国语言生态观测工作,“过去进行过多次,如20世纪50年代的少数民族语言和汉语方言普查,20世纪80年代的全国民族语言文字使用情况调查,20世纪90年代的民族语言调查,1998年至2004年的中国语言文字使用情况调查,近几年的中国语言生活状况调查等,还有其他几次规模较小的语言调查。这些调查的成果为我国语言政策的制定与实施、语言文字工作的顺利开展提供了重要依据,创造了有利的条件。”(陈章太,2008)
香港城市大学自1995年开始建立了LiVaC(Linguistic Variation in Chinese Speech Communities)共时语料库[2],语料主要来自中国的香港、台湾、澳门、上海、北京、广州、深圳等地区及新加坡等多个代表性中文媒体,涵盖泛华语地区。语料每4天采集1次,每次30~50 K字。至2007年共采集235 M字,1.2 M词。LiVaC语料库建设的目的在于探讨新语言形式的产生和发展、泛华语地区各自的语言变化及其之间的关系。特别探讨了自1995年以来涌现的汉语外来词及新兴词,以及在语法等方面的发展新趋势。在大语料库基础上,LiVaC每两星期计算公布双周“名人榜”,年底公布全年“名人榜”,并建立人物褒贬指数的计算。LiVaC还建立了人名库、地名库、机构商业专名库、动词词库、形容词词库、各地每月新词词库等多个专项数据库。
“教育部已经在‘十五’期间与相关大学共建了五个‘国家语言资源监测与研究中心’的分中心(2004—2005),中国和国际的一些中文语音和语言数据建设及其应用的科技机构和公司,已经成立了‘国际中文语言资源联盟(Chinese Linguistic Data Consortium,ChineseLDC)'(2004),一些以语言资源作为服务产品的网站也陆续出台,有关语言资源和语言资源评估的国际研讨会(2004)也已经举行。‘国际中文语言资源联盟’2006年1月14日召开的最新的年会在清华大学举行,应引起传统语言学界的重视。”(张普,2007)
2004年中国科学院计算所和富士通研究开发中心有限公司联合研制“基于Internet的新词语检测系统”,主要对《北京日报》《北京晚报》《京郊日报》和少量的《人民日报》网页进行分析,以观测每月新词语、每月热点新词语和人名。如2006年12月热点词语观测结果中有“公投”一词,相关信息如下。
字面相关信息:如背投、公测等。
上下文相关信息:如公投法等。(www.xing528.com)
缩略语:公主投票。
词性:b v。
首次出现日期:2000-05-20。
语料中的出现次数:6400。
语料中包含该词的文章篇数:1085。
其工作流程为:系统自动收集网页,进行时间提取和文本提取,根据网页的时间来判断词语出现的时间,通过新词规则过滤方法和词语的出现时间识别新词,通过人名识别方法和统计信息观测热点人名,每个月会自动更新结果,整个过程完全自动进行,不进行人工干预。网站上可以免费得到观测结果及相关信息。
2004年由教育部语信司联合高校研究机构创建了中国国家语言资源监测与研究中心,它作为一个系列工程列入教育部新教育振兴行动计划,是我国第一个专门的语言观测与研究机构。它的成立和发展目的在于对国家语言资源进行动态分析、管理,并运用现代化手段加以处理和利用,提高汉语在世界上的影响力。现已建成五个分中心。其中平面媒体分中心的中国主流报纸动态流通语料库由北京语言大学应用语言学研究所建设,从2002年开始,每年统计“中国主流报纸十大流行语”。在中国主流报纸动态流通语料库基础上已取得了字母词语、术语、流行语、文本自动分类、基本字词、熟语、报刊主题词群等课题的一系列科研成果。2005年开始每年由各个分中心共同参与发布年度《中国语言生活状况报告》绿皮书。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。