社会在发展,语言在发展,其中必然给原有的语言规范带来挑战,也带来新的课题。这些课题包括但不限于以下方面。
(1)由于组织机构名称数量庞大、名称多样,而组织机构规范却受限于规模小、质量低、使用范围有限。基于机构名称的属性及其机构实体间的语义关系,将机构名称看作用户的实体对象,引入Schema词汇表对其语义进行描述,从而为现有规范库组建一个机构名称为实体的关联网数据模型。这一研究可视为组织机构名称规范化新的研究方向(曾建勋、贾君枝,2019)。
(2)5G时代悄然来临,信息传递迅速而活跃的自媒体对于中文信息处理而言就是一把双刃剑。尽管网络文本和大数据易于获取,易于建立研究资源;然而,和传统媒体语料相比,自媒体时代语言的高度不确定性和不规范将给组织机构名称规范化和分词标注带来更大的挑战。
(3)新闻从业人员的素质也是语言规范化所遇到的一个难题。组织机构名称识别结果中不少禁用字符与新闻从业人员的素质是有直接关系的。如,语言规范意识淡漠,录入时不经认真校对,随意使用非通用语言文字等。“2006年5月由中国逻辑学会等单位联合举办了全国报刊逻辑语言应用病例有奖征集活动,动员读者给‘全国报刊挑错’,同年年初上海《咬文嚼字》编辑部主办了请给‘荧屏亮分’活动,动员观众查找电视语言文字应运用差错。活动结束,观众和读者挑出语言文字运用差错共34883个,其中报刊语言文字差错14883个,荧屏语言文字差错2万多个。电视差错率最高,其次是报纸。”(华绍和,2008)
(4)和组织机构名称规范化相关的另一个新问题就是一些新的组织机构名称命名方式。如,从2005年开始,我国出现了这样一种新的组织机构名称命名方式,即用一个已有的普通词语或普通字符串作为一个民间团体的命名。这主要是一些演艺人员的歌迷、影迷为自己所取的独一无二的团体名字。如:
李宇春歌迷会:玉米(玉:同“宇”;米:同“迷”)(www.xing528.com)
在现代传媒和娱乐势力的推动下,这些仅在某一狭小的语言社区内流传的名称迅速流入媒体,在大众媒体上形成了新形式的语言社区和语言壁垒。这种命名方式也有迅速流行的趋势,各位演艺人员的“粉丝”纷纷发动,为自己的团体打造贴切、新颖的名称。而最后,“传统”的谐音命名方式走向了更新的语义联想和迂曲综合的方式。如:
芝麻——尚雯婕歌迷会(芝麻开花节节(婕婕)高)
这种团体命名方式在极短的时间内迅速流行,产生了一大批新型的组织机构名称和新的义项。如,真实语料中,作为团体名的“玉米”的频率可能在一定时期或更长时期内高过作为食物的“玉米”的频率。这种新的组织机构名称命名方式最后将何去何从,我们拭目以待。但可以想见,这样的命名方式确实会给中文信息处理带来新的问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。