首页 理论教育 回归语音的原始频谱特征分析

回归语音的原始频谱特征分析

时间:2023-06-22 理论教育 版权反馈
【摘要】:对于语音的特征学习和语音识别而言,这个目标可以归纳为对原始频谱特征的使用或是对波形特征的使用。Mohamed等人[259],Li等人[221]和Deng等人[94]均指出,在大规模的DNN中使用原始Mel域的滤波器组特征替代MFCC可以使错误率显著降低。最近,Sainath等人[307]通过学习定义在能量谱上的滤波器组参数,向原始特征又迈进一步。例如,Sainath等人[307]的研究表明,使用原始语谱作为特征输入相比于MFCC,需要在归一化上额外注意,而使用语音波形在归一化方面则更需注意[327]。

回归语音的原始频谱特征分析

深度学习,也称为表示学习或(无监督)特征学习,它要达到的一个重要目标是使其能够自动地从原始数据中提取有效的特征,这个目标与具体应用领域的种类是无关的。对于语音的特征学习和语音识别而言,这个目标可以归纳为对原始频谱特征的使用或是对波形特征的使用。过去30年以来,虽然对语音频谱进行变换丢失了原始语音数据的部分信息,但是多种“手工制作”(hand-crafted)的特征促进了GMM-HMM系统识别率的巨大提升。其中最成功的是非自适应余弦变换,它促进了Mel频率倒频谱系数(MFCC)特征的产生。余弦变换近似地去除了特征成分之间的相关性,这对于使用对角协方差阵的GMM来说是很重要的。然而,当深度学习模型(如DNN、DBN)、深度自编码器替代GMM模型以后,由于深度学习建模方法具有强大的相关性建模能力,使得去除特征之间的相关性变得无关紧要。较早的一篇研究论文[100]说明了深度学习的这个优点,并且在使用非监督学习的自编码器对语音的瓶颈层(bottleneck)特征进行编码时,直接使用语谱比MFCC更有效。

从语音波形(原始语音特征)到MFCC以及它们的时间差分,这个流程经历了多个中间步骤:对数谱、Mel域滤波器组,参数是从数据中学习得到的。深度学习的一个重要特性是:不用单独设计特征表示器和分类器。这种同时学习分类器和特征表示的思想,其实在基于GMM-HMM的语音识别中早有研究,例如文献[33,50,51,299],然而也只是近期应用深度学习的方法使得语音识别的识别率大大提升。Mohamed等人[259],Li等人[221]和Deng等人[94]均指出,在大规模的DNN中使用原始Mel域的滤波器组特征替代MFCC可以使错误率显著降低。这些结果说明,DNN可以从Mel域的滤波器组特征中学习到比固定余弦变换更好的变换。

相比于MFCC,原始频域特征不仅保留了更多的信息,而且可以使用卷积和池化(pooling)操作来表达和处理一些典型的语音多变性——例如,说话人的声带长度差异,不同发音风格引起的共振峰位置差异等,而这些多样性都隐含在频域中。例如,只有用频域特征替换MFCC特征之后,卷积神经网络(Convolutional Neural Network,CNN)方可有意义并有效地应用在语音识别中[1,2,3,94]

最近,Sainath等人[307]通过学习定义在能量谱上的滤波器组参数,向原始特征又迈进一步。也就是说,与文献[1,3,50,221]中使用Mel域的滤波器组特征作为输入不同的是,Mel域滤波器的权值仅用于初始化参数,再和其余的深度神经网络层参数一起进行学习,得到分类器。上述同时学习特征产生器和分类器的架构如图7.1所示。结果表明,这种方法使得识别错误率大大降低[307]

978-7-111-52906-4-Chapter07-1.jpg

7.1 滤波器参数和其他深度网络参数同时学习(www.xing528.com)

图中词语翻译对照表

978-7-111-52906-4-Chapter07-2.jpg

事实证明,学习频域特征和时域特征对语音识别都是十分有益的[332]。最近,Yu等人[426]通过对网络进行逐层分析,来揭示原始滤波器组特征作为输入时DNN不同层的性质。他们指出使用DNN所带来的语音识别准确率的提升,部分归功于DNN能够提取区分性内部表示的特性,这一特性对于多种来源的语音信号可变性是鲁棒的。他们也发现:网络高层获得的区分性的内部表示对输入层的微小扰动不敏感,这一特点帮助了语音识别率的提高。

最后,深度学习将促进更底层原始语音特征(如语音波形)的使用来进行语音识别,并自动学习特征变换。Jaitly和Hinton[183]对上述目标进行了最初的尝试,他们将原始语音波形作为具有卷积结构的RBM的输入来训练分类器。在隐层使用整流线性单元(rectified linear units),可在一定程度上自动地对语音波形幅度变化进行归一化。虽然最终实验结果并不是很好,但是这项工作说明在使用原始特征方向上有待更深入的研究。例如,Sainath等人[307]的研究表明,使用原始语谱作为特征输入相比于MFCC,需要在归一化上额外注意,而使用语音波形在归一化方面则更需注意[327]。无论是在GMM还是深度学习的方法中,这一点均得到验证。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈