首页 理论教育 DNN输出表示的优化方案

DNN输出表示的优化方案

时间:2023-06-22 理论教育 版权反馈
【摘要】:现在,大多数的DNN系统使用高维的输出层表示,来匹配HMM中上下文相关的音素状态。文献[79]中提出,语音识别的输出表示可以从符号或音系单位结构化的设计中获益。提出的解决方案是:上下文相关DNN的输出表示,作为标准状态建模技术的一个实例,其中采用了更广泛的音素类。也就是说,上下文相关DNN输出层表示的总体设计是自然的分层结构,同时解决了数据稀疏性问题和低分辨率问题。

DNN输出表示的优化方案

在语音识别和其他信息处理应用中,大多数深度学习方法在没有过多考虑输出表示的情况下,着眼于从输入声学特征来学习表示上。最近2013 NIPS关于学习输出表示的研讨会(http://nips.cc/Conferences/2013/Program/e-vent.php?ID=3714)致力于弥补这一不足。例如,将在第11章讨论的深度视觉语义向量模型(Deep Visual-Semantic Embedding Model)[117],利用从文本向量中得到的连续值输出表示,来帮助深度网络对图像进行分类。文献[79]强调了在语音识别中为神经网络输出层设计有效的语言表示的重要性。

现在,大多数的DNN系统使用高维的输出层表示,来匹配HMM中上下文相关的音素状态。由于这个原因,输出层的计算会消耗总计算时间的1/3。为了提高解码速度,通常将低秩近似(low-rank approximation)应用到输出层。在文献[310]和[397]中,首先训练高维输出层的DNN。然后应用奇异值分解(Singular Value Decomposition,SVD)对输出层矩阵进行降维。输出矩阵进一步合并,用两个小矩阵乘积作为原始大权值矩阵的近似结果。这种技巧实质上将原始高维输出层转换为两层——一个瓶颈线性层和一个非线性输出层——两者都具有很小的权重矩阵。降维转换后的DNN被进一步优化。实验结果表明,即使输出层大小减少一半,识别率也不会降低,同时也会大幅度减少计算时间。

文献[79]中提出,语音识别的输出表示可以从符号或音系单位结构化的设计中获益。众所周知,人类语音具有丰富的符号本质音素结构。同样的,长久以来,在工程应用的语音识别系统中,使用音素或更精细的状态序列,即使上下文相关,也不足以表示这种丰富的结构[86,273,355]。因此,符号或音系单位的设计也是提高语音识别系统性能的有价值的研究方向。文献[76]和最近的文献[79]综述了语音内部结构的基本理论和语音识别技术的相关性,例如语音模型输出表示的确定、设计与学习。(www.xing528.com)

在语音识别中,着眼于设计与语言结构相关的输出表示,成为基于深度学习的语音识别中越来越热的研究方向。文献[383,384]论证了基于上下文相关的音素单元的局限并提供了一种解决方案[67,68]。这种限制的根本原因是,由决策树创建的一个类中所有的上下文相关音素状态共享一套参数,这就降低了解码阶段更细粒度状态的分辨能力。提出的解决方案是:上下文相关DNN的输出表示,作为标准状态建模(canonical state modeling)技术的一个实例,其中采用了更广泛的音素类。首先,使用更广的上下文将三音素聚类为多个更小的两音素集合。然后,训练DNN以区分这些两音素集合。使用逻辑回归将标准状态转换为三音素状态输出概率。也就是说,上下文相关DNN输出层表示的总体设计是自然的分层结构,同时解决了数据稀疏性问题和低分辨率问题。

语音识别中,设计输出层语言表示的相关工作可以参考文献[197]和[241],这些设计是在GMM-HMM语音识别系统中,但同样可以扩展到深度学习模型中。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈