首页 理论教育 基于DNN的语音识别器自适应技术

基于DNN的语音识别器自适应技术

时间:2023-06-22 理论教育 版权反馈
【摘要】:DNN-HMM是20世纪90年代人工神经网络和HMM混合系统的升级版本,这期间出现了很多自适应技术,其中大部分是基于对输入层或输出层的网络权值的线性变换。许多基于DNN的自适应探索性研究使用和上面相同或相近的线性变换方法[223,401,402]。这种不同给DNN-HMM系统的自适应提出了新挑战,尤其是在自适应中数据较少的情况下。最近,Saon等人[317]探索了一种对语音识别自适应十分有效的新方法。

基于DNN的语音识别器自适应技术

DNN-HMM是20世纪90年代人工神经网络和HMM混合系统的升级版本,这期间出现了很多自适应技术,其中大部分是基于对输入层或输出层的网络权值的线性变换。许多基于DNN的自适应探索性研究使用和上面相同或相近的线性变换方法[223,401,402]。然而,与早期的窄层和浅层神经网络系统相比,DNN-HMM的参数个数明显变多,这是因为DNN-HMM需要更深更宽的隐层结构和更多的上下文相关的音素和状态输出。这种不同给DNN-HMM系统的自适应提出了新挑战,尤其是在自适应中数据较少的情况下。这里我们将讨论在大规模DNN系统下最新的几个具有代表性的研究,这些研究旨在克服上述的挑战。

Yu等人[430]提出了DNN正则化(regularized)自适应技术。通过强制自适应模型估计出来的分布与自适应前的接近,来适当地修正权值。这个约束通过对自适应规则增加Kullback-Leiblers散度(Kullback-Leibler Divergence,KLD)正则化来实现。这种正则化方法与传统误差反向传播算法修正目标分布是等价的,因此DNN模型训练过程几乎不用做改动。新的目标分布由自适应之前的模型分布的插值和真实数据与自适应数据的对齐得到。这种插值通过防止自适应模型远离说话人无关模型,从而避免过训练(overtraining)。这种正则化的自适应方法与L2正则化不同,L2正则化限制模型参数本身而非输出概率。

文献[330]中,DNN自适应不在传统的网络权值上,而是在隐层激活函数上进行。因为这种方法仅需要对一定数量的隐层激活函数进行自适应,所以有效地克服了现有基于线性变换自适应方法依赖于输入或输出层权值的弱点。(www.xing528.com)

我们注意到,一些无监督或半监督的自适应DNN声学模型的方法也取得了成功[223,405]

最近,Saon等人[317]探索了一种对语音识别自适应十分有效的新方法。这种方法将I-vectors特征和特征域最大似然线性回归(feature-domain max-likeli-hood linear regression,fMLLR)特征进行组合作为DNN的输入。I-vectors(I-dentity vectors)通常用于说话人确认和说话人识别,该方法可以将说话人的相关信息封装为一个低维特征。而fMLLR是GMM-HMM系统自适应的一种非常有效的技术。由于I-vector不服从频率的局部性,因此必须与服从频率局部性的fMLLR特征进行组合才能发挥效力。多尺度的CNN-DNN架构拥有组合不同类型特征的特性。因此在解码阶段和训练阶段,特定说话人的I-vector特征都附加到帧级的fMLLR特征之后。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈