无监督学习是指在学习过程中不使用特定任务的监督信息(如目标类别标签)。这一类深度网络大多可以通过从网络中采样来有效生成样本,因此是生成式模型,例如RBM、DBN、DBM和广义除噪自编码器(generalized de-noising autoencoders)[23]。然而这一类别中的某些网络采样并不容易,因而本质上并不是生成式的,例如稀疏编码网络(sparse coding networks)和原始形式的深度自编码器(deep autoencoders)。
在生成式或无监督深度网络的各个子类中,基于能量的深度模型是最常见的[20,28,213,268],我们将会在第4章对具有原始形式的深度自编码器进行更详细地讲解[28,100,164],它们是这种无监督模型的典型例子。大多数其他形式的深度自编码器本质上也是无监督的,但其特性和实现却完全不同,例如转换自编码器(transforming autoencoders)[160]、预测稀疏编码器(predictive sparse coders)及其堆叠形式、除噪自编码器(de-noising autoencoders)及其堆叠形式[376]。
具体地说,在除噪自编码器中,输入向量首先被“破坏”,例如,随机选择一定比例的输入并把它们设为零或加入高斯噪声,然后调整参数,使隐层编码结点重构出原始的、未损坏的输入数据,调整参数所使用的准则包括原始输入与重建输入的最小均方误差和KL散度准则。将未损坏数据进行转换,获得编码表示,并将其作为下一层堆叠自编码器的输入。
另一类有生成能力的深度无监督模型是深度玻尔兹曼机(DBM)[131,315,316,348]。DBM包含很多隐变量层,并且同一层变量之间没有连接。这是玻尔兹曼机(BM)中的一个特例,一般玻尔兹曼机是一种使用随机机制控制节点开关的对称网络,虽然有简单的学习算法,但研究起来仍然很复杂,训练起来很慢。在DBM中,每一层会捕捉与下面一层隐特征激励之间的复杂且高阶的相关性。DBM具有学习复杂的内部表达的潜力,非常适合解决目标识别和语音识别问题。此外,对于特定任务,可以由大量的未标注的感知输入建立高层次的表示,然后可以用非常有限的标注数据对模型进行微调。
当DBM的隐层数为1时,我们得到受限玻尔兹曼机(RBM)。与DBM一样,RBM中没有隐层到隐层和显层到显层的连接。RBM的主要优点是,通过组合许多RBM,把上一层RBM的特征激励作为下一层的训练数据,可以高效地对隐层进行学习。这样的组合就引出了深度置信网络(Deep Belief Network,DBN),我们会在第5章中详细讲解DBN和RBM。
标准的DBN在底层被扩展成为因子化高阶玻尔兹曼机(Factored Higher-order Boltzmann Machine),在音素识别[64]和计算机视觉[296]中得到了较好的结果,这个称为均值-协方差受限玻尔兹曼机(mcRBM)的模型,其改进了标准RBM表示数据协方差结构的能力。然而,mcRBM很难训练,并且很难在深层结构的较高层中使用mcRBM,文献中已发表的较好的结果不易重现。区分性信息常用于对较高层的RBM进行微调,然而在Dahl等人[64]描述的结构中,由于计算代价较高,所以在完全深度置信网络的mcRBM的参数微调过程中没有利用区分性信息。随后的工作表明,如果使用说话人适应过的特征,即一种去除了特征中变化的特征,会使得mcRBM没有效果[259]。(www.xing528.com)
另一种有代表性的可以用来进行无监督(和有监督)学习的深度生成式网络是和积网络(Sum-product Network,SPN)[125,289]。SPN是有向无环图,它将观测变量作为叶子节点,将“和”与“积”操作作为深度网络的内部节点。“和”节点提供混合模型,“积”节点建立特征层次。“完整性”和“一致性”以一种很好的方式约束了SPN,利用EM算法和反向传播算法进行SPN的学习,学习过程从密集型SPN开始。然后,通过学习其权值来找到SPN结构,权值为0时表示删除连接。进行SPN学习的主要困难是,学习信号(如梯度)在向深层传递时会迅速被稀释。经验上解决该问题的方案是存在的,参见文献[289]。该篇早期的论文指出,尽管SPN有令人满意的生成式特性,但是很难利用区分性信息调整参数,这限制了它在分类任务上的有效应用。然而,随后的工作克服了这一困难,文献[125]为训练SPN设计了一种高效的反向传播式的区分性训练算法。重要的是,基于条件概率导数的标准梯度下降算法也存在和常规DNN训练时同样的梯度扩散问题。在学习SPN参数的过程中缓解这个问题的技巧是,将边缘推断替换成最可能的隐变量状态,并只通过“硬”对齐方式进行梯度传播。Gens和Domingo在文献[125]报告了他们在小尺度图像识别任务上的优异成绩。
递归神经网络(Recurrent Neural Networks,RNN)可以认为是另一类用于无监督(和有监督)学习的深度网络,它的深度甚至可以达到和输入数据序列的长度一样。在无监督学习模式下,RNN被用来根据先前的数据样本预测未来的数据序列,并且学习过程中没有用到类别信息。RNN非常适合序列数据(例如,语音和文本)建模,但最近才得以广泛使用,部分原因是由于梯度弥散或梯度爆炸问题,它们很难训练来捕捉长时相关性(最早可参见20世纪90年代的论文[29,167])。现在可以相对容易地处理这些问题[24,48,85,280]。最近在Hessian-free优化[238]研究方面的进展,在一定程度上解决了这个问题,该方法使用了近似二阶信息或随机曲率估计。在近期的研究工作中[239],以Hessian-free优化方法训练的RNN作为生成式深度网络,被用在了字级语言建模任务中,该任务引入门控连接,以允许当前输入字符预测从一个隐状态向量到下一个的转移。已证明,这样的生成式RNN模型能够很好地产生连续的文本字符。Bengio等人[22]和Sutskever[356]探索了不同的用于训练生成式RNN的随机梯度下降优化算法,并证明了这些算法可以超越Hessian-free优化方法。Milotov等人[248]对RNN在语言建模上的优异结果进行了报告。最近,Mesnil等人[242]和Yao等人[403]报告了RNN在口语理解上取得的成功。我们将在第8章回顾这些工作。
在语音识别研究中,探索利用人类发音机制来构建动态和深度结构的概率生成模型的工作已经有很长的历史了,参考文献[76]可以获得全面了解。具体而言,早期工作[71,72,83,84,99,274]通过引入HMM参数上多项式轨迹形式的动态约束,推广并扩展了传统的浅层、条件独立的HMM结构。最近出现了此方法的一个变种,其时变HMM(time-varying HMM)参数的学习采用了不同的学习技术,这个方法被应用到了提高语音识别的鲁棒性上[431,416]。类似的轨迹HMM(trajectory HMM)也构成了参数化语音合成的基础[228,326,439,438]。随后,人们在动态模型中增加了一个新的隐层,明确地考虑了人类语音产生过程中以目标为导向的发音特性[45,73,74,83,96,75,90,231,232,233,251,282]。在最近的研究中[76,107,105],对于这种具有隐层动态性的深度结构,更有效的实现方式是通过非递归的或有限冲击响应滤波器(Finite Impulse Response,FIR)来实现的。上述深层结构的语音生成模型可以被看作更一般化的动态网络的特殊实例或更一般化的动态图模型[35,34]。图模型通过许多隐层来描述语音生成中变量之间的复杂关系,由于配备了强大的图建模工具,语音深度结构最近已被成功地应用于解决非常棘手的单通道、多说话人语音识别问题中,其中多人混合语音是可见变量,非混合语音由深度生成结构中的一个新的隐层表示[301,391]。深度生成图模型在许多应用中的确是非常有效的工具,因为它们具有嵌入领域知识的能力。然而,它们却往往被用于不恰当的近似推理、学习、预测和拓扑结构设计中,这些都源于大多数实际任务中固有的难解性。这个问题已经在Stoyanov等人最近的工作[352]中有所涉及,它指出了深度生成式图模型在今后实际应用中更有用和有趣的一个方向。Bengio等人最近提出了解决这个棘手问题的更激进的方法[30],该方法完全避免了边缘化隐变量的要求。
用于大规模语音识别和理解的标准统计方法将用于语音声学建模的(浅层)隐马尔可夫模型和表示不同层级的自然语言高层结构相结合。这种结合的层次模型在一定程度上可以视为深度生成结构,它的动机和一些技术细节参见最近一本书[200]中第7章“层级HMM”或HHMM的介绍。包括HHMM和层级HMM(Layered HMM)的一些相关模型参见文献[116]和[271],这些文献中有更深入的技术介绍和数学推导。把这些早期深度模型作为有向图模型来表述,忽略了最近深度生成式网络中体现的“分布式表示”的这一重要方面,这些深度生成式网络包括本章前面讨论的DBN和DBM。对这一方面进行补充将有助于改进这些生成式模型。
最后,基于神经网络架构的动态或时间递归生成式模型被用于人体运动建模[361]、自然语言和自然景物分析[344,339]。有趣的是,在后一个模型中,学习算法能够自动确定最优的模型结构,而其他深度模型如DBN只有预先定义了模型结构,才能进行参数的学习。值得注意的是,可以使用最大间隔(max margin)结构预测框架来探寻自然场景图像和自然语言语句中的递归结构。结果表明,这个方法能识别出来包含在图片和句子中的单元以及这些单元间相互结合所形成的整体。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。