语音识别其实是一个模式识别匹配的过程,像人们听语音时,并不会把语音和语言的语法结构、语义结构分离开来。因为当语音发音模糊时,人们可以用这些知识来指导对语言的理解过程;但是对机器来说,语音识别系统也要利用这方面的知识,只是在有效地描述这些语法和语义时还存在一些困难。
(1)小词汇量的语音识别系统:通常包括几十个词的语音识别系统。
(2)中等词汇量的语音识别系统:通常包括几百至上千个词的语音识别系统。
(3)大词汇量的语音识别系统:通常包括几千至几万个词的语音识别系统。
这些不同的限制也确定了语音识别系统的困难度。
语音识别系统一般可以分为前端处理和后端处理两部分,如图6-8所示。前端包括语音信号的输入、预处理、特征提取。后端是对数据库的搜索过程,分为训练和识别。训练是对所建模型进行评估、匹配、优化,之后获得模型参数。(www.xing528.com)
图6-8 语音识别系统架构
识别是指一个专用的搜索数据库在获得前端数值后,对声学模型、语音模型、字典进行相似性度量匹配。声学模型通过训练来识别特定用户的语音模型和发音环境特征;语言模型涉及中文信息处理的问题,在处理过程中要给语料库单词的规则化建立一个概率模型;字典则列出了大量的单词和发音规则。
语音识别的具体过程如下:计算机先根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需要的模板;在识别过程中,计算机根据语音识别的整体模型,将计算机中已经存在的语音模板与输入的语音信号的特征进行比较,并根据一定的搜索和匹配策略找出一系列最优的与输入语音匹配的模板,通过查表和判决算法给出识别结果。显然识别结果的准确率与语音特征的选择、语音模型和语音模板的好坏及准确度有关。
语音识别系统的性能受多个因素的影响,例如,不同的说话人、不同的语言以及同一种语言不同的发音和说话方式等。提高系统的稳定性就是要提高系统克服这些因素的能力,使系统能够适应不同的环境。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。