语音交互是自然和谐人机交互的基本组成单元。语音交互主要包括语音识别与合成。语音识别功能的实现就是使机器人能够完成“听”的功能,即从声音到文本的转换(Speech To Text,STT)并通过模式匹配技术和数据库技术实现对语言的“理解”和对问题的“思考”。语音合成则是实现机器的自然语言表达功能,即从文本到声音的转换。
语音识别技术以语言为研究对象,涉及生理学、语言学、计算机及信号处理等多个领域,是语言信号处理的一个重要研究方向。典型的语音识别系统如图7-13所示。其中,预处理包括语音信号采样,反混叠带通滤波去除个体发音差异和设备、环境引起的噪声影响等,并涉及语音识别基元的选取和端点监测问题;特征提取部分用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等;训练在识别前进行,通过让讲话者说出一些句子,有时需多次重复某些语音,从原始样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成语音模式库;模式匹配部分是整个语音识别系统的核心,它是根据一定的准则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则物,计算输入特征与库存模式之间的相似度(如距离匹配、似然概率),判断出输入语音的语义信息。
图7-13 语音识别系统
目前中文语音识别的研制和开发厂商有Speechworks,Nuance,Philips,Microsoft,IBM,L&H,Infotalk、中科模式识别、天朗、得意音通、安可尔通信、声硕科技等。衡量一个语音识别系统的优劣的标准包括:
1)对说话者的依赖程度,是否能识别非特定人的说话。
2)识别语音的类型,能识别孤立词的、断续的、还是连续的语音。(www.xing528.com)
3)系统词汇量,是小词汇量、中词汇量还是大词汇量。
目前识别效果比较好的系统是:中科模式识别的Patter ASR和IBM的Viavoice。
Viavoice是IBM开发的语音识别引擎,属于特定人的识别。其最大的优势在于可以连续识别语音。在使用Viavoice之前,必须要对其进行特定人的口音训练,使它熟悉用户的说话方式,从而提高识别率。IBM的Viavoice软件的主要功能有汉字语音输入、编辑、打印等;语音听写功能;语音命令功能;其内核的接口适用于多种变成环境。该软件针对每个人不同的噪音和说话特征,提供口音适应的功能。它可以支持多用户使用,只要每个用户都在自己的用户名下进行相应的语音训练就可以了。
Pattek ASR具有易用性强,识别率高的特点。用户无需进行训练,引擎的设计已经保证了非特定人这一重要特点;API提供的管理工具可以使用户自如地定义自身所需的词表和语法,便于进行二次编程开发。
因为Pattek ASR具有非特定人这一重要特点,以及其在应用中具有识别率高易开发等特点,所以在本系统中选用该SDK作为语音识别引擎。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。