这本专著首先阐述了深度学习的发展历史(侧重于语音识别研究领域),并提出了一个用于分析文献中现有的深度网络的分类方案,类别包括无监督的(其中有许多是生成式的)、有监督的和混合神经网络。作为上述三类中的代表,本书对深度自编码器、深度堆叠网络DSN(以及它的许多其他变种)、深度置信网络—深度神经网络(DBN-DNN)或预训练的深度神经网络架构进行了讨论和详细的分析。根据作者本人的研究经历,这三个类别的神经网络是流行和有前景的方法。这本专著也对深度学习在信息处理的五大领域中的应用进行了回顾,包括语音和音频(第7章)、自然语言建模和处理(第8章)、信息检索(第9章)、目标识别与计算机视觉(第10章)和多模态以及多任务学习(第11章)。其他一些深度学习中有趣但并不是主流研究方向的应用并没有囊括在这部专著里。有兴趣的读者可以翻阅有关深度学习应用的最新论文,例如最优控制[219]、强化学习[256]、恶意软件分类[66]、压缩感知[277]、识别中置信度的预测[173]、声学到发音的转化[369]、视频中的情感识别[189]、语音中的情感识别[207,222]、口语理解[242,366,403]、说话人识别[351,372]、语种识别[112]、口语对话系统中的对话状态追踪[94,152]、自动语音激活检测[442]、语音增强[396]、语音转换[266]以及单通道的源信号分离[132,387]。
目前已经有很多深度学习的相关文献,其中大部分来自于机器学习领域。信号处理领域在过去的几年里才开始转战深度学习(大约在2009年底开始),并一直保持前所未有的快速增长势头。本书主要是从信号与信息处理的角度来写的。除了调研现有的深度学习相关工作,我们提出了一个从架构和学习算法的本质这两方面出发的分类方案,并提供了具体实例分析及讨论。我们希望这本专著中的调研能够为读者更好地理解本书中所讨论的不同的深度学习系统、不同但相似的深度学习方法之间的联系以及如何在不同的情况下设计合适的深度学习算法提供思路。
纵观整个综述,我们传达了一个重要的信息,那就是构建和学习特征的深层表示是非常必要的。由于最优化的困难,在零样本的情况下学习深度网络所有层的参数难度很大,我们已经对其进行了讨论,这一点需要更进一步的理解。我们在第5章详细回顾了DBN-DNN混合结构中的无监督预训练方法,提供了一个有用的、经验性的解决优化问题中的局部最优解的方案,同时提供了包含大量参数的深度模型正则化的解决方案(虽然缺乏稳固的理论基础)。在训练数据有限的监督学习情况下,预训练方法对性能而言是很重要的一个因素,该方法促成了2009年学术界和工业界研究者的合作,从而引起了信号处理领域对深度学习的极大兴趣。
深度学习是一项新兴技术。尽管目前已经有很多经验性的研究成果,但是仍然有很多工作需要开展。重要的是,深度学习的研究者还没有找到一个单独的深度学习技术能够成功应用到所有的分类任务中去。例如,虽然从经验上来说,通用的生成式预训练伴随判别式微调的学习策略在很多任务上应用的很好,但是在其他一些任务上却是失败的(例如语种识别或说话人识别)。对这些任务来说,在生成式预训练阶段提取的特征似乎可以很好地描述语音的变化,但是缺乏判别不同语言的信息。一种可以提取判别和不变性特征的学习策略应该可以提供更好的解决方案。这种思想被称为“理清”(disentangling),并在文献[24]中进行了扩展。此外,提取判别特征可以大大减少许多当前深度学习系统中模型的大小。领域知识是应用深度学习方法成功的关键。例如哪种不变性对于给定的一项特定任务(例如,视觉、语音或自然语言)是有用的?哪种以参数约束为标准的正则化是对深度学习方法应用的关键?此外,除本书讨论的几个流行的架构之外,目前深度学习领域正在积极研究新型的深度神经网络架构和学习策略(参见文献[24,89]),它们有望提高深度学习模型在更多具有挑战性的信号处理和人工智能应用中的性能。
最近发表的研究工作指出,现有深度架构的优化技术还有着巨大的提升空间[69,208,238,239,311,356,393]。究竟预训练对学习深度架构中整体参数的重要程度有多大,目前还在研究中,尤其是当有大量标注训练数据时,可以降低甚至消除模型的正则化的需求。一些初步结果已在本书和文献[55,161,323,429]中进行了讨论。
近年来,机器学习越来越依赖于大规模的数据集。例如,本书中讨论的许多最新成功的深度学习案例都依赖于大量数据集和强大的计算能力。如果不能获取到大量真实的数据集,没有相关的工程专业知识,探索新算法将会变得异常困难。深度学习算法的效能在很大程度上依赖于可获得的数据量和计算能力。正如我们所列举的语音识别的例子,一个深度学习算法在小的数据集上效果不是特别明显,但一旦数据量提升后,算法开始表现得相当好,这也是最近神经网络研究复苏的主要原因之一。举一个例子,如果有足够的数据和计算能力,那么引领(深度)机器学习研究新时代的深度置信网络预训练,看起来就并不是那么有必要了。(www.xing528.com)
因此,有效且可扩展的并行算法对于训练拥有大量数据集的深度模型而言是极其重要的,如许多常见的信息处理的应用(语音识别和机器翻译)。众所周知,常用的“迷你批量”(mini-batch)随机梯度技术是难以通过计算机并行的。最近开发的异步随机梯度下降学习算法已通过大规模CPU集群[69,209]和GPU集群[59]实现,尽管我们非常期待这项技术的成熟,但目前而言最常见的做法还是使用GPGPUs加速学习过程。在这个有趣的计算架构中,并行中训练数据的不同子集上有很多深度学习计算梯度时的不同副本。这些梯度被传输到一个更新共享权重的中央参数服务器上。尽管每个副本通常使用不立即更新的参数值计算梯度,随机梯度下降对于其引入的轻微错误还是鲁棒的。为了使深度学习技术扩展到非常大的训练数据,如何合理地使用并行学习和优化算法以及新型的架构,在理论上需要进一步的发展[31,39,49,69,181,322,356]。为了推动语音识别前进到更高的层次,它的优化方法可能同时需要被考虑在内[46,149,393]。
目前,阻碍深度神经网络以及相关深度模型应用的一个主要屏障是:需要足够的能力和经验来合理地选择超参数的取值,譬如学习速率、正则项的强度以及层数和每层的单元个数等。一个超参数的合理值取决于其他超参数的取值,并且深度神经网络中超参数的微调代价很大。近来提出了一些用来解决这个问题的有趣方法,包括随机采样[32]和贝叶斯优化过程[337]。在这个重要领域内,我们有必要进行进一步的研究。
这本专著中第8章和第11章主要讲自然语言和多模态的应用,已经涉及应用深度学习方法的一些最新工作,本书所讲的使用有监督、无监督或者混合学习方法来直接进行模式识别研究并未涵盖这些工作。理论上讲,深度网络通过分层的网络单元集合做分布式表示(参见表3.1),对推理、关系、实体、概念、事件、主题等进行编码,因此具有在结构上进行有效推理的潜力,正如先前一些早期出版物和最新论文中指出的那样[38,156,286,288,292,336,335]。尽管像第8章和第11章所回顾的,近来文献出现了深度网络在这方面进行了初始的探索,但仍然有很多工作需要做。如果成功的话,这类深度学习“机器”将会像一个“具有思维的大脑”那样,在人工智能领域中开创许多新颖而振奋人心的应用。虽然充满着全新的挑战,我们希望未来在这个领域将会有越来越多的深度学习的研究工作。
进一步来说,深度学习的方方面面都需要建立坚实的理论基础。比如说,深度学习在无监督的学习中并没有监督学习那样成功,但是深度学习的本质和主要动机是自动地发掘数据的表示。问题涉及高效地学习特征表示以及设计合理的深度学习架构/算法来高效地解决数据变化中潜在解释因素的分布式表示。不过,目前为止,绝大多数深度学习技术只是被成功用于解决无结构或者“扁平结构”的分类问题。例如,本质上来说,尽管语音识别是一个序列分类问题,在很多成功的大规模系统中,用一个独立的隐马尔可夫模型来处理序列结构,深度神经网络仅仅用来产生逐帧、无结构的后验分布。目前,已经有一些研究工作开始跨越“扁平结构”的表示,在深度学习架构和输入输出的表示方面同时引入结构信息[79,136,338,349]。
最后,深度学习研究者得到神经系统科学家的建议,开始考虑更加宽广的问题以及学习架构,以便于洞察大脑中或许对实际应用有效的生物学上有意义的表示[272]。研究分层的大脑结构而得到的更加科学的计算神经系统模型又将如何帮助提高工程中的深度学习架构的效能?为了进一步推动并拓展深度学习的领域,这一章中所讨论的问题均有待更进一步地深入研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。