首页 理论教育 卷积神经网络(CNN)在语音识别中的优势应用

卷积神经网络(CNN)在语音识别中的优势应用

时间:2023-06-25 理论教育 版权反馈
【摘要】:由于CNN在计算机视觉、图像处理中的成功应用,近两年来研究人员开始将其应用到语音识别领域。相比以上两种深层神经网络,CNN可在保证识别率的同时,还能大大降低模型的复杂度,从而降低语音识别过程中对最开始的语音特征提取的依赖。2012年,多伦多大学初步建立了CNN用于语音识别的模型结构,并同DNN训练算法相比取得了10%的性能提升。图16.5卷积神经网络用于语音识别声学建模时,典型的卷积层和聚合层的结构

卷积神经网络(CNN)在语音识别中的优势应用

由于CNN在计算机视觉、图像处理中的成功应用,近两年来研究人员开始将其应用到语音识别领域。相比以上两种深层神经网络,CNN可在保证识别率的同时,还能大大降低模型的复杂度,从而降低语音识别过程中对最开始的语音特征提取的依赖。值得注意的是,二维图像作为CNN的输入数据,两个维度上的特征物理意义一样,但将语音作为二维特征输入时,其物理意义不相同。文献提到,将语音的二维特征分为时域和频域两个维度,此时CNN中的C层可看作是通过滤波器对局部频域特征的观察,进而抽取局部有用信息。而S层是在相邻两个feature map的输出节点中选择最大值作为输出。之后与图像一样,最终需通过一个全连接层得到各个状态的分类后验概率来得到分类结果。2012年,多伦多大学初步建立了CNN用于语音识别的模型结构,并同DNN训练算法相比取得了10%的性能提升。

CNN通过卷积实现对语音特征局部信息的抽取,再通过聚合加强模型特征的鲁棒性。卷积神经网络由一组或多组卷积层+聚合层构成。一个卷积层中包含若干个不同的卷积器,这些卷积器对语音的各个局部特征进行观察。聚合层通过对卷积层的输出结点做固定窗长的聚合,减少下一层的输入结点数,从而控制模型的复杂度。一般聚合层采用最大聚合算法,即对固定窗长内的结点选取最大值进行输出。最后,通过全网络层将聚合层输出值综合起来,得到最终的分类判决结果。图16.5给出了卷积神经网络用于语音识别声学建模时,典型的卷积层和聚合层的结构,在标准英文连续语音识别库TIMIT以及汉语电话自然口语对话数据集上面进行了实验,对卷积神经网络的输入特征、卷积器尺寸和个数、计算量和模型规模等做了详细的对比实验,取得了较好的效果。(www.xing528.com)

图16.5 卷积神经网络用于语音识别声学建模时,典型的卷积层和聚合层的结构

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈