①深度学习神经网络(DNN)对语音数据的训练。基于DNN方法去训练深度学习神经网络语音识别系统架构的过程分为以下两步:
第一步,从底往上的非监督学习,就是用无标签数据进行每一层的预训练(Pre-training),而每一层的训练结果作为其高一层的输入,这是与传统神经网络相比最大的区别,这个过程可看作是特征学习(Feature Learning)的过程。
第二步,从顶向下的监督学习,就是用有标签的数据调整所有层的权值和阈值,按照误差反向传播算法(Back Propagation,BP)自顶向下传输,对网络进行微调(Tune-fining)。
由于深度学习的第一步不是跟传统神经网络一样去随机初始化,而是通过学习数据的结构得到,所以这个初值更接近全局最优,进而取得更好的结果。因此相比单纯使用BP算法,深度学习算法效果好,要归功于第一步的特征学习。
②利用深度学习进行语音特征提取。在已经商用的HMM隐马尔可夫语音识别系统中,使用高维的Mel倒谱系数(MFCC)作为特征向量,使用隐马尔可夫模型(HMM)或改进的高斯—隐马尔可夫混合模型(GMM-HMM)作为声学模型,用最大似然准则(Maximum Likelihood,ML)和期望最大化算法来训练这些模型。利用MFCC等语音特征提取算法提取的特征只对单帧信号作用,不能很好地涵盖有效语音信息,也易受噪声污染。对于语音的特征学习和语音识别而言,这个目标可以归纳为对原始频谱特征的使用或是对波形特征的使用。
过去30年以来,虽然对语音频谱进行变换丢失了原始语音数据的部分信息,但是非自适应的余弦变换近似地去除了特征成分之间的相关性,使得MFCC特征被广泛应用,促进了GMM-HMM系统识别率的显著提升。由于语音形成过程中往往伴随着“协同发音”现象,即当前语音会受到临近音的影响,考虑深度学习模型具备强大的数据建模能力,能够挖掘这种丰富语言现象的内涵信息,因而可以考虑将相邻的连续多帧短时特征拼接起来得到长时特征,构成网络的原始输入。(www.xing528.com)
深度自动编码器是一种深度学习神经网络,其输入和输出具有相同的维度。由于它以在输出层重构出原始输入作为目标,不需要额外的监督信息,因而可以直接从海量未标注原始数据中自动学习数据特征。有研究工作将高维MFCC特征作为网络输入,应用深度自动编码器成功提取了新的语音特征。市级应用中,采用深度学习模型提取的新语音特征和传统MFCC特征相比,在识别性能上有较好的提升。基于深度自动编码器模型的语音特征提取方法如图16.4所示。
图16.4 基于深度自动编码器模型的语音特征提取方法
③利用深度学习网络进行声学建模。语音识别领域最有挑战性的问题是声学建模,特别是多语种语音识别系统,难点和瓶颈在于缺乏足够有标注的语音数据,利用深度学习神经网络进行声学建模,有利于解决这些难题。
基于GMM-HMM的声学模型是目前对HMM输出概率进行建模的主流方法,该方法主要是基于上下文相关的浅层、扁平的GMM和HMM生成式模型,但当面对更加复杂的语音识别环境时,GMM逐渐显示出建模能力不足的问题。实际研究工作中,使用5层DNN模型替换GMM-HMM系统中的混合高斯模型(GMM),并以单音素状态作为建模单元,取得了成功。尽管单音素比三音素(Triphone)的表征能力差一些,但使用单音素的5层DNN-HMM构架的方法却比已经实用的三音素GMM-HMM系统识别率更高,并且DNN对HMM中后验概率的估计不需要很苛刻的数据分布假设,条件更宽泛。与现有建模分类器相比,DNN最主要的优势是加强了语音帧与帧之间的联系。
大量研究表明,将深度学习应用于提取语音特征和取代HMM中的GMM模型非常成功,并且将深度学习成功应用到语音识别当中。研究人员也在不断研究新的深度学习神经网络模型取代整个语音识别系统来构建更好的语音识别系统。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。