首页 理论教育 多语言识别技术:国际游客的沟通桥梁

多语言识别技术:国际游客的沟通桥梁

时间:2023-06-20 理论教育 版权反馈
【摘要】:支持综合性多语言信息服务系统投入世博会实用运行,形成面向百万人群规模的多语言信息服务。962010世博热线,是由中国电信上海公司筹建和运营,作为中国2010年上海世博会唯一指定官方服务热线,基于多语言识别技术,为中外游客、参展商及国外的远程观众提供多达12种语言的综合信息服务。面对各种语言的游客关于上海世博会的咨询,提供权威、准确的解答。已经为超过200个国家/地区的7000万中外游客提供了多语种的世博综合信息服务。

多语言识别技术:国际游客的沟通桥梁

语言综合信息应用示范系统采用基于多语言识别、合成及跨媒体搜索关键技术,以呼叫中心服务为载体,建立具有安全性、稳定性、开放性的多语言综合信息服务应用示范系统。支持综合性多语言信息服务系统投入世博会实用运行,形成面向百万人群规模的多语言信息服务。

962010世博热线,是由中国电信上海公司筹建和运营,作为中国2010年上海世博会唯一指定官方服务热线,基于多语言识别技术,为中外游客、参展商及国外的远程观众提供多达12种语言的综合信息服务。

世博热线提供自助与人工服务两种方式,其中语音自助服务通过智能技术,使机器能自动识别用户说话内容,为客人提供世博知识普及和信息咨询服务。用户拨打962010,通过人机对话识别来电语言,可提供中文、英文、法文、日文等12种语言的服务能力。用户可随意表达自己的需求,并获得快速、精确、流畅的人类自然语言回复。面对各种语言的游客关于上海世博会的咨询,提供权威、准确的解答。主要的语音识别问答范围包括:①信息咨询;②建议及投诉受理;③援助、购物、安全的服务;④应急状态下的事件处置。为用户提供多语种的外语服务,提供世博会知识普及、世博音乐征集、世博特许经营产品、世博对外展示中心的信息咨询、世博票务咨询、志愿者政策咨询及报名在线指导等世博局提供、认可并指定的服务范围内进行服务。

同时,世博热线呼叫中心的话务员依托跨媒体搜索技术提供的高效信息采编功能,可向用户推送多种形式的信息内容。世博热线提供的多语种自助与人工双结合,让更多的人了解世博、参与世博。已经为超过200个国家/地区的7000万中外游客提供了多语种的世博综合信息服务。通过一个有声的多语种语音窗口,把组织者、参展者、游客、媒体等各类群体与上海世博会紧紧连在一起,让更多的人认识世博、参与世博。

在运用多语言识别及综合信息服务项目应用之前,传统的中文语音服务无法对应语种信息,无法提供多语言的信息服务。具体表现为:只有中文信息,其他语种的信息需求无法满足;没有对其他语种服务的标准,对于特定的单词、理解上的歧义无法消除;对于特定的信息,没有统一的翻译标准;对坐席的依赖性高,依靠坐席自身对信息的掌握、对语言的掌握提供服务;只能提供限定的、少数领域的服务,无法提供基于后台海量中文信息的服务。而采用中国电信承担的“十一五”863课题“多语言综合信息服务应用示范”项目的先进成果,为游客提供多语言、多内容、多媒体的信息服务,解决了上述问题。系统通过语音导航的引导为客户提供自助与人工服务。自助服务融合应用了语音合成和语音识别技术。

整个系统的实现,基于以下方面的研究成果:多语言基础资源库研制和共享,多语言语音识别关键技术研究与应用产品开发,多语言语音合成关键技术研究与应用产品开发,跨媒体搜索关键技术研究及服务产品开发,面向跨语言搜索的机器翻译关键技术研究,最后才能形成多语言综合信息服务应用示范系统,并落实为正式的商用。

在项目规划的阶段,即要求能够实现以下服务能力:

提供接入号为962010的多语言世博热线服务平台,能够提供自助和人工的信息服务方式;系统15s内接通率大于90%。

根据世博多语言服务需求,提供至少4种语言服务(确定中、英、法、日为课题四种基本服务语种,其他语种在会展期间灵活实现),满足世博在多语言综合信息服务方面的要求;服务用户数大于100万。

能提供包括多语言语音识别、合成、搜索等关键技术在内的以下信息服务:基于多语言、跨媒体信息检索;基于多语言、跨媒体的信息编辑;基于多语言的信息发布(包括:世博展馆介绍、企业信息介绍等);提供包括语音、短信、传真、电子邮件等多种接入服务。此外,还要求能够提供质检功能,能对平台所提供的服务质量进行跟踪和管理,保证服务水平;能根据应用系统需求提供用户使用记录和用户分析;能提供系统监控和报警功能。

通过在世博热线平台中部署多语言识别和搜索引擎系统,运用跨语言搜索技术、跨媒体搜索技术、优化信息存储和检索技术,自动实现或辅助话务员对对语言信息咨询内容的翻译、内容检索、结果回复等功能,达到提升世博热线平台业务能力和效率的作用。多语言识别系统架构如图1-32所示。(www.xing528.com)

其中涉及的关键技术包括多语言TTS、多语言ASR、跨媒体搜索及其机器翻译技术,具体如下:

1)多语言TTS(Text To Speech,语音合成技术)系统,是用于把多语言文本转换成多语言语音输出的系统。自动语音播报:文本信息经引擎处理后转换为语音信息,该信息可经电话通道播报出来。从文本到语音信息的处理,增加业务处理的灵活性,无需繁琐的人工录音,能提供更加自然流畅的、统一音色的语音服务。文本朗读:将各种格式的多语言文件或者网页用标准的多语言语音朗读。

2)多语言ASR(Automatic Speech Recognition,自动语音识别)系统,实现把多语言语音转化为多语言文字文本。语种识别:能够通过说话人一段时间的语音,识别说话人说的是哪个语种。关键词识别:在说话人说的一段语言中选择出相应的关键字或者词进行语种识别。连续语言识别:连续语音识别主要应用于广电领域,将一段连续的说话自动转换成文本。说话人识别:说话人在说了一段时间的话之后,系统能自动识别说话人的身份。

世博热线实施的多语言识别技术,体现了这项技术的最新发展成果:

978-7-111-42346-1-Chapter01-40.jpg

图1-32 多语言识别系统架构图

1)准确,领先的识别效果:适应多种口音,覆盖不同地域、不同人群、不同信道、不同终端、不同噪声环境;适应多种业务,覆盖音乐搜索、通信助理、综合信息查询等众多典型应用。

2)智能,智能的导航功能:语音自助服务更加自然开放,例如可以这样提问“请问有什么可以帮您的?”识别系统可以处理更加复杂的用户回答,有效减少反复询问用户的过程。

3)高效,优秀的识别性能:优化识别引擎,新的识别引擎提供更高的性能,更低的资源开销;在线自适应功能,能够根据用户的语音实时对识别参数进行自动调整,持续提高识别效果;语法快速编译。

4)易用,完善的集成开发支持与定制优化方案:可视化语法编辑器,实现语法的高效编辑,方便的语法调试器,集成语法编译、优化、分析工具;支持汉字和拼音两种语法编写形式,语法开发灵活高效;智能检错机制,可以有效定位语法文件的逻辑错误,极大地方便用户的业务开发。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈