在语音以及信号处理领域中,用于有监督学习的很多判别技术都是浅层结构,比如HMM[52,127,147,186,188,290,394,418]以及条件随机场(CRF)[151,155,281,400,429,446]。条件随机场在输入特征和转移特征之间建立了线性联系,其本质上是一种浅层模型。在将条件随机场和经过区分性训练的高斯模型以及隐马尔可夫模型之间建立等价关系后,其浅层性质就变得显而易见了[148]。近来,深度结构的条件随机场将其上一层的输出及原始输入数据作为下一层的输入[428]。各种各样的深度结构条件随机场(deep-structured CRF)已经成功地被用于音素识别[410]、说话人辨识[428]以及自然语言处理中[428]。然而,至少在音素识别任务中,采用纯判别(非生成)模型的深度条件随机场的表现还没有包含深度置信网络(DBN)的混合方法好,我们在下面的章节中将提到DBN。
Morgan在文献[261]中对其他主要用于语音识别的判别模型给出了很精彩的综述,这些模型主要基于传统的神经网络或者是采用由随机初始化的反向传播学习得到的MLP结构。这篇文献探讨了增加每层神经网络的宽度以及增加神经网络结构整体深度的重要性。应特别指出的是,有一类深度神经网络模型被看作目前应用广泛的“串联”法(tandem)[262]的基础,同时判别式神经网络的输出被当作HMM中的观测变量。这一方面有代表性的工作可以参考文献[193,283]。
最近的文献[106,110,218,366,377]提出了一种新的深度学习结构,有时称为深度堆叠网络(Deep Stacking Network,DSN),及其张量[180,181]与核[102]两个变种版本。它们依赖于少到几乎没有的生成元素,就可以进行可扩展、并行的和逐块的学习,从而完成判别工作。我们将在第6章中详细讨论这种用来判别的深度结构。
如前所述,RNN已经作为一种生成模型来使用,和神经预测模型[87]一样,它拥有一个相似的生成机制。RNN也可以当作判别式模型来使用,此时的输出是一组和输入数据序列相关联的标签序列。要指出的是,这样的判别式RNN或序列模型很早以前已经应用到语音中,但效果有限。在文献[17],使用判别式概率准则将HMM和神经网络一起来训练。在文献[304]中,一个单独的HMM在训练中用来对序列进行分段,同时该HMM也被用于将RNN分类结果转化成标签序列。然而,当HMM用于这种目的时,并不会体现出RNN全部的优势。
最近提出来的一系列新的模型和方法[133,134,135,136],通过把长短时记忆(Long-Short-Term Memory)嵌入到模型中以使RNN本身能用于序列分类,无须对训练数据预分段以及对输出数据后处理。隐藏在这种方法背后的观点是,RNN的输出是在给出输入序列的情况下所有可能的标签序列的条件分布。那么,通过一个可微的目标函数能够最优化标签序列的条件分布,在这里,算法能自动进行数据分段。这种方法的有效性已经在手写体识别以及小型语音任务中[135,136]得到了验证,这部分将会在本书第7章得到更加详细的讨论。(www.xing528.com)
卷积神经网络(Convolutional Neural Network,CNN)是另一种类型的判别式深度结构,它的每个模块都是由卷积层(convolutional layer)和池化层(pooling layer)组成。这些模块通常是逐个叠加的,或在上面放一个深度神经网络,以形成深度模型[212]。卷积层共享许多权值,池化层对卷积层的输出进行降采样,减少了下面一层的数据率。卷积层中的权值共享和适当的池化策略,使CNN具有一些“不变(invariance)”特性(如平移不变性)。有些文献指出,这种有限的不变性或等方差性(equi-variance)对于复杂的模式识别任务而言并不能完全胜任,所以需要提出一些用于处理更广范围不变性的有效方法[160]。虽然如此,人们发现CNN在计算机视觉或者图像识别任务中非常有效[54,55,56,57,69,198,209,212,434]。最近,将用于图像分析的CNN进行合理改造,同时考虑到语音的特点,CNN在语音识别方面也产生了效果[1,2,3,81,94,312]。我们将在本书第7章中详细讨论这些应用。
需要指出的是,语音识别早期发展起来的延时神经网络(TDNN)[202,382]可以看成是CNN的一种特殊情况或其前身,即共享权值被限制在单一的时间维度上,且没有池化层。直到最近,研究人员才发现,在语音识别领域中,时间维度上的不变性并没有频率维度上那么重要[1,3,81]。关于对其内在原因的详细分析在文献[81]中有所描述。同时该文献提出了一种新的设计CNN池化层的策略,在音素识别任务上比以前所有的CNN效果要好。
要指出的是,层级时间记忆模型(Hierarchical Temporal Memory,HTM)是另一种CNN的变体和扩展[126,143,142]。拓展包含下面的几个方面:(1)引入时间或者是暂存维度(temporal dimension)来作为判别时的“监督”信息;(2)自底向上和自顶向下这两种信息流都被使用,代替了CNN中仅有的自底向上的数据流;(3)一种贝叶斯概率形式用于融合信息以及进行决策。
最后需要指出的是,文献[214]提出的自底向上、基于检测(detection-based)的语音识别学习结构,以及自2004年由它发展而来的各种结构,特别是文献[330,332,427]中使用的DBN-DNN技术,也可以归并为判别式或有监督的深度结构。在这个结构中,没有什么目的和机制来描述数据和语音属性的识别目标(包括更高级别上的音素和单词)的联合分布概率。当前最流行的实现方法是基于DNN的,或者说是使用反向传播算法进行学习的多层神经网络。在基于检测的框架中,一种中间神经网络层明确地表示了语音的属性,这是对以前语音“原子”单元实体的简化[101,355]。这种方法的优点在于,移除了语音属性或者发音特征(articulatory-like features)的瞬时重叠。我们期望在未来工作中加入更加实际的特性,将有助于进一步改进语音识别的准确率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。