关于语音识别噪声鲁棒性的研究已经有很长的历史,比深度学习的出现都要早的多。一个主要原因是基于GMM-HMM的声学模型对于不同加噪测试数据的脆弱性,这是由于带噪的测试数据在特性上与训练数据(可能带噪或不带噪)不同所导致的。按以下5个不同准则对过去30年中的噪声鲁棒技术进行分析及分类:(1)特征域与模型域的处理;(2)使用声学环境失真的先验知识;(3)显式地使用环境失真模型;(4)确定与不确定的处理方式;(5)使用与测试阶段相同的特征增强或者模型自适应技术训练的声学模型。读者可以参考综述[220]帮助理解,还有一些其他的综述材料和原始工作可参考文献[4,82,119,140,230,370,404,431,444]。
许多在模型层面提出的GMM-HMM抗噪技术(如Li等人[220]和Gales[119]关于模型域的噪声鲁棒性研究)并不可以直接应用到深度学习的语音识别中,而特征层面的技术则可以直接应用到DNN系统中。Seltzer等人[325]对特征层面语音识别噪声鲁棒性进行了深入的研究,他们在DNN的输入特征层应用了C-MMSE[415]特征增强算法。通过对训练数据和测试数据使用相同的算法,DNN-HMM识别器可以学习到增强算法引入的一致性错误和失真。这项研究也成功地探索了噪声察觉(noise-aware)的DNN训练模式,其中将对噪声的估计拼接到每个观测上,在Aurora4任务中取得了很突出的效果。最近,Kashiwagi等人[191]在DNN识别器使用SPLICE特征增强技术[82],DNN输出层由没有噪声的数据决定,而在Seltzer等人[325]的工作中,DNN输出层是由加噪数据决定的。(https://www.xing528.com)
除了DNN,研究者们也提出了其他用于特征增强和噪声鲁棒性语音识别的深度网络架构。例如,Mass等人[235]使用深度回归自动编码器网络来消除输入特征中的噪声。模型是由加噪和无噪并行的语音特征训练,用来在有噪输入的条件下预测无噪声特征,实验设置与SPLICE相似,不同之处是使用深度模型替代GMM。Vinyals和Ravuri[379]研究了噪声鲁棒性语音识别的串联(tan-dem)方法,其中DNN用噪声数据直接训练并生成后验特征。最后Rennie等人[300]探索使用一种RBM来做噪声鲁棒性识别,称为因子化隐RBM。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
