语音识别模块的设计与实现

时间：2023-06-24 理论教育版权反馈

【摘要】：语音交互主要包括语音识别与合成。语音识别技术以语言为研究对象，涉及生理学、语言学、计算机及信号处理等多个领域，是语言信号处理的一个重要研究方向。典型的语音识别系统如图7-13所示。图7-13 语音识别系统目前中文语音识别的研制和开发厂商有Speechworks，Nuance，Philips，Microsoft，IBM，L＆H，Infotalk、中科模式识别、天朗、得意音通、安可尔通信、声硕科技等。

语音识别模块的设计与实现

语音交互是自然和谐人机交互的基本组成单元。语音交互主要包括语音识别与合成。语音识别功能的实现就是使机器人能够完成“听”的功能，即从声音到文本的转换（Speech To Text，STT）并通过模式匹配技术和数据库技术实现对语言的“理解”和对问题的“思考”。语音合成则是实现机器的自然语言表达功能，即从文本到声音的转换。

语音识别技术以语言为研究对象，涉及生理学、语言学、计算机及信号处理等多个领域，是语言信号处理的一个重要研究方向。典型的语音识别系统如图7-13所示。其中，预处理包括语音信号采样，反混叠带通滤波去除个体发音差异和设备、环境引起的噪声影响等，并涉及语音识别基元的选取和端点监测问题；特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等；训练在识别前进行，通过让讲话者说出一些句子，有时需多次重复某些语音，从原始样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成语音模式库；模式匹配部分是整个语音识别系统的核心，它是根据一定的准则（如某种距离测度）以及专家知识（如构词规则、语法规则、语义规则物，计算输入特征与库存模式之间的相似度（如距离匹配、似然概率），判断出输入语音的语义信息。

图7-13 语音识别系统

目前中文语音识别的研制和开发厂商有Speechworks，Nuance，Philips，Microsoft，IBM，L＆H，Infotalk、中科模式识别、天朗、得意音通、安可尔通信、声硕科技等。衡量一个语音识别系统的优劣的标准包括：

1）对说话者的依赖程度，是否能识别非特定人的说话。

2）识别语音的类型，能识别孤立词的、断续的、还是连续的语音。(www.xing528.com)

3）系统词汇量，是小词汇量、中词汇量还是大词汇量。

目前识别效果比较好的系统是：中科模式识别的Patter ASR和IBM的Viavoice。

Viavoice是IBM开发的语音识别引擎，属于特定人的识别。其最大的优势在于可以连续识别语音。在使用Viavoice之前，必须要对其进行特定人的口音训练，使它熟悉用户的说话方式，从而提高识别率。IBM的Viavoice软件的主要功能有汉字语音输入、编辑、打印等；语音听写功能；语音命令功能；其内核的接口适用于多种变成环境。该软件针对每个人不同的噪音和说话特征，提供口音适应的功能。它可以支持多用户使用，只要每个用户都在自己的用户名下进行相应的语音训练就可以了。

Pattek ASR具有易用性强，识别率高的特点。用户无需进行训练，引擎的设计已经保证了非特定人这一重要特点；API提供的管理工具可以使用户自如地定义自身所需的词表和语法，便于进行二次编程开发。

因为Pattek ASR具有非特定人这一重要特点，以及其在应用中具有识别率高易开发等特点，所以在本系统中选用该SDK作为语音识别引擎。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

语音识别模块的设计与实现

相关推荐

语音识别模块的设计与实现

有关情感机器人的文章

相关推荐