首页 理论教育 优化语音识别应用的语音特征参数选取

优化语音识别应用的语音特征参数选取

时间:2023-06-25 理论教育 版权反馈
【摘要】:在语音识别应用中,除了利用语音的短时特性外,还要利用语音在频谱上的丰富信息,如线性预测系数、倒谱特征等。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。梅尔倒谱就是符合上述人耳声道模型和听觉机理的特征参数,在低频段具有较高的分辨率,抗噪声能力又相对突出,成了语音识别领域广泛采用的特征参数。在Sphinx、HTK等经典语音识别应用系统中,都是使用39维的MFCC参数。

优化语音识别应用的语音特征参数选取

在语音识别应用中,除了利用语音的短时特性外,还要利用语音在频谱上的丰富信息,如线性预测系数、倒谱特征等。根据人耳听觉机理的研究成果,人耳对不同频率的声波有不同的听觉敏感度,对200 Hz到5 000 Hz之间的语音信号非常敏感。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。

梅尔倒谱(MFCC)就是符合上述人耳声道模型和听觉机理的特征参数,在低频段具有较高的分辨率,抗噪声能力又相对突出,成了语音识别领域广泛采用的特征参数。MFCC是在Mel标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用式(15.1)近似表示:

MFCC特征参数的提取过程如图15.3所示。

图15.3 MFCC特征参数提取的基本过程(www.xing528.com)

由图15.3可知,MFCC特征参数向量的构成一般是:N维MFCC参数(N/3 MFCC系数+N/3一阶差分参数+N/3二阶差分参数)+帧能量。在Sphinx、HTK等经典语音识别应用系统中,都是使用39维的MFCC参数。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈