近期深度学习应用到语音识别声学模型上取得了重大进步的另一个领域是优化准则和方法,及其相关的避免深度网络过拟合的正则化技术。
微软研究院在早期DNN语音识别的研究中[260],首先认识到了传统DNN训练过程中要求的错误率和交叉熵训练准则(cross-entropy training criterion)之间的不匹配问题。解决方法是:使用基于全序列的最大互信息(Maximum Mutual Information,MMI)为优化目标,代替帧级的交叉熵训练准则,在和HMM结合的浅层神经网络中也使用同样的方法定义训练目标。同样的,这等价于在DNN的顶层加上条件随机场(Conditional Random Field,CRF),代替原有DNN中的softmax层(注意这篇论文中将DNN称为DBN)。这个新的序列化判别式学习技术也用来联合优化DNN权值、CRF转移权值和二音素(bi-phone)的语言模型。这里要注意的是,该语音任务数据集为TIMIT,使用一个简单二元音素的类语言模型。二元语言模型的简单性在于,它允许全序列的训练而不需要网格(lattice),大幅度降低了训练的复杂度。
作为文献[260]中另外一个全序列训练方法(full-sequence training meth-od)的动机,我们注意到,早期的DNN音素识别任务是使用交叉熵——静态分类任务的标准帧级目标函数,去优化DNN权值的。HMM中状态转移参数和语言模型的训练与DNN权值训练独立。但是,众所周知,在HMM的研究历史中,序列化分类准则对提高语音识别和音素识别率非常有帮助,因为序列化分类准则与性能评测方法(例如音素或词错误率)比帧级交叉熵准则的相关性更强。更确切地说,使用帧级交叉熵准则训练音素序列识别的DNN时,没有显式的考虑在给帧分配音素标注概率分布时相邻帧之间距离更小。为了克服这个缺点,在给定全部可见句子或等价的DNN提取的隐层特征序列时,可以优化整个标注序列的条件概率。为了优化训练数据对数域的条件概率,反向梯度可以由激活函数参数、转移参数和低层的网络权值获得,然后在句子级进行误差反向传播算法。我们注意到在更早的研究[212]中,结合了CRF类似结构和神经网络,其数学形式把CRF作为一个特例。此外,使用全序列分类准则的优势在更早的浅层神经网络中已经得到证实[194,291]。
在实现文献[260]中描述的上述DNN系统的全序列学习算法时,DNN网络权值使用帧级的交叉熵初始化。转移概率结合HMM转移矩阵和二元音素语言模型得分进行初始化,并在联合优化前通过固定DNN权值调节转移矩阵参数得到进一步优化。使用联合优化并加以细心的调度以减少过拟合,全序列训练比帧级训练的DNN性能相对提高5%[260]。如果不采取减少过拟合的措施,MMI准则训练的DNN比帧级交叉熵准则更容易陷入过拟合。这是因为训练集、开发集和测试集数据帧级之间的相关性可能不同。更重要的是,这种不同在使用帧级目标函数训练时并未出现。
对于使用更复杂语言模型的大词汇量语音识别,优化全序列的DNN-HMM训练变得更加复杂。Kingsbury等人[195]通过使用并行二阶的Hessian-free优化训练技术,使得上面的优化方法第一次在大词汇量语音识别中得以实现。Sain-ath[305]通过减少Krylov子空间求解器的迭代次数对Hessian-free技术进行了提升和加速,Krylov子空间用于Hessian的隐式估计。他们还采用了采样的方法减少训练数据以加速训练。随着分批形式、二阶的Hessian-free技术成功用于训练全序列的大规模的DNN-HMM系统,一阶随机梯度下降方法最近也被成功的应用[353]。人们发现需要启发式搜索来处理网格(lattice)的稀疏性,即DNN必须通过基于帧的交叉熵训练额外的迭代进行调整,以更新之后的分子网格。而且,在分母网格中需要加入人工的静音弧,或者最大互信息的目标函数需要通过帧级交叉熵目标做平滑。该研究的结论是:尽管本质上目标函数和得到梯度算法相同,但对于使用稀疏网格的大词汇量连续语音识别,实现全序列的训练要比小任务需要更多的工程技巧[260]。Vesely[374]在大词汇量语音识别任务的全序列训练DNN-HMM实验中,也给出了同样的结论。但是,与之不同的启发式规则[353]在训练中却相当有效。另外,Wiesler[390]研究了训练具有交叉熵目标DNN的Hessian-free优化方法,并给出了这些方法的经验性性质。最后,Dognin和Goel[113]在进行序列训练DNN时,结合了随机均匀梯度和Hessian-free优化方法,相比于单独的Hessian-free序列训练方法,该方法成功地将训练收敛时间减少一半。
对大规模DNN-HMM系统而言,无论是采用帧级还是序列优化目标,为了充分利用大量训练数据和大模型,训练加速是十分必要的。除上述方法外,Dean等人[69]提出了在超大词汇量语音识别中使用异步随机梯度下降(Asyn-chronous Gradient Descent,ASGD)方法、自适应梯度下降(Adaptive Gradient Descent,Adgrad)和大规模受限存储BFGS(L-BFGS)方法。Sainath在文献[312]中,对一系列加速训练和DNN语音识别的优化方法进行了综述。(www.xing528.com)
除了上述侧重于完全有监督的优化(即所有训练数据都有标注)外,也有研究DNN-HMM语音识别系统中半监督的训练方法。Liao等人在文献[223]中报告了一项非常有挑战的研究,在YouTube语音上使用半监督方法训练DNN-HMM,其主要技术是使用称为“置信岛(island of confidence)”的启发式过滤方法选择训练片段。另外,Vesely[374]也探索了DNN的半监督训练,使用自训练(self-training)作为句子级和帧级置信选择的基本策略。由混淆网络生成每帧的置信度进行帧级选择是有益的。Huang[176]汇报了半监督训练的另一种方法,使用多系统的组合和置信度重新校准(recalibration)来选择训练数据。此外,Thomas[362]克服了在一系列少资源情景中缺乏声学模型所需的训练数据问题。他们采用带有抄本的多语种数据和半监督训练方法,训练一个特征提取前端,用于后续语音识别任务。
最后,我们看到了最初由Hinton等人[166]提出的正则化方法“dropout”在基于深度学习的语音识别中新的发展。过拟合在DNN训练中很容易出现,DNN的多层激励也易于相互适应(co-adaptation)去拟合输入声学数据。Dropout是限制相互适应的技术,它的具体操作如下:对每个训练实例,每个隐层单元都随机地以一定概率(如p=0.5)被忽略,随后除了简单的缩放DNN权重外(通过因子1-p),解码正常完成。或者,DNN权值的缩放可以在训练阶段完成(缩放因子1/(1-p))。Dropout正则化的好处是,训练DNN的过程时使隐层单元仅受自身激励影响,而不依赖其他的单元,并提供了一种在不同网络中求其平均模型的方法。这些优点在训练数据有限时或者当DNN网络大小比训练数据要大的多时最为明显。Dahl等人[65]将Dropout策略和ReLU单元一起使用,但仅在全连接的DNN的一些高层中应用dropout。Seltzer和Yu[325]将dropout应用到噪声鲁棒的语音识别。Deng等人[81]从另一方面入手,将dropout应用到卷积神经网络的所有层,包括高层的全连接层、低层局部连接的卷积层和池化(pooling)层,并发现在卷积神经网络中dropout率需要大幅降低。
后续关于dropout的应用包括Miao和Metze的工作[243],他们在少资源数据稀疏条件下使用DNN进行语音识别。最近,Sainath等人[306]将dropout和一些新技术相结合,在一系列大词汇量语音识别任务上获得了领先的结果。这些新技术包括:深度CNN、Hessian-free序列化学习、ReLU单元、fMLLR和滤波器组特征等。
下面对本小节做简短总结。2010年左右,研究者对深度学习在语音分析和识别领域的成功进行了报告,自此以后,深度学习又取得了长足的发展。我们看到,在这个主题上的研究工作和论文发表的爆炸性增长,看到它在语音识别领域激动人心的巨大成功。我们预计基于深度学习的语音识别研究继续不断壮大,至少在近期将会快速成长。很公平的说,基于深度学习的大规模语音识别的不断成功(截止到ASRU-2013会议召开)是促使深度学习方法应用到其他领域的关键因素,我们会接着在第8~11章继续讨论深度学习在其他研究领域的成功应用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。