首页 理论教育 深度学习:渊源与兴起

深度学习:渊源与兴起

时间:2023-06-28 理论教育 版权反馈
【摘要】:深度学习起源于对神经网络的研究,20世纪60年代,受神经科学对人脑结构研究的启发,为了让机器也具有类似人一样的智能,人工神经网络被提出用于模拟人脑处理数据的流程。深度学习的产生就是缘于此任务,它又被称为无监督的特征学习,从这个名称就可以知道这是一个没有人为参与的特征选取方法。深度结构学习,或者通常更多人称之为深度学习,从2006年开始作为一个新兴的领域出现在机器学习的研究中。

深度学习:渊源与兴起

深度学习起源于对神经网络的研究,20世纪60年代,受神经科学人脑结构研究的启发,为了让机器也具有类似人一样的智能,人工神经网络被提出用于模拟人脑处理数据的流程。最著名的学习算法称为感知机。但随后人们发现,两层结构的感知机模型不包含隐层单元,输入是人工预先选择好的特征,输出是预测的分类结果,因此只能用于学习固定特征的线性函数,而无法处理非线性分类问题。Minsky等指出了感知机的这一局限,由于当时其他人工智能研究学派的抵触等原因,使得对神经网络的研究遭受到巨大的打击,陷入低谷。直到20世纪80年代中期,反向传播(Back Propagation,BP)算法的提出,提供了一条如何学习含有多隐层结构的神经网络模型的途径,让神经网络研究得以复苏。

由于增加了隐层单元,多层神经网络比感知机具有更灵活且更丰富的表达力,可以用于建立更复杂的数学模型,但同时也增加了模型学习的难度,特别是当包含的隐层数量增加的时候,使用BP算法训练网络模型时,常常会陷入局部最小值,而在计算每层结点梯度时,在网络低层方向会出现梯度衰竭的现象。因此,训练含有许多隐层的深度神经网络一直存在困难,导致神经网络模型的深度受到限制,制约了其性能。

2006年之前,大多数机器学习仍然在探索浅层结构(Shallow-structured),这种结构包含了一层典型的非线性特征变换的单层,而缺乏自适应非线性特征的多层结构。如隐马尔可夫模型(HMM)、线性或非线性动态系统、条件随机域(CRFs)、最大熵(Max-entropy)模型、支持向量机(SVM)、逻辑回归、内核回归和具有单层隐藏层的多层感知器(MLP)神经网络。这些浅层学习模型的共性是由仅有的单层组成的简单架构负责转换原始输入信号或输入特征为特定问题特征空间时,其过程不可观察。以支持向量机为例,它是一种浅层线性独立模型,当使用核技巧时,SVM具有一个特征转换层,否则特征转换层个数为0。浅层架构在许多简单或受限问题中,早已被证明卓有成效,但是由于它们的有限建模与表现能力,导致在处理涉及自然信号如人的讲话、自然的声音和语言、自然的图像和视觉场景等更为复杂的现实应用时,产生了困难。(www.xing528.com)

在实际应用中,如对象分类问题(对象可以是文档、图像、音频等),人们不得不面对的一个问题是如何用数据来表示这个对象,当然这里的数据并非初始的像素或者文字,也就是这些数据是比初始数据具有更为高层的含义,这里的数据往往指的是对象的特征。例如人们常常将文档、网页等数据用词的集合来表示,根据文档的词集合表示到一个词组短语的向量空间(Vector Space Model,VSM)中,然后才能根据不同的学习方法设计出适用的分类器来对目标对象进行分类。因此,选取什么特征或者用什么特征来表示某一对象对于解决一个实际问题非常得重要。然而,人为地选取特征的时间代价是非常昂贵的。而所谓的启发式算法得到的结果往往不稳定,结果的好坏经常是依靠经验和运气。于是,人们考虑到利用自动学习来完成特征抽取这一任务。深度学习的产生就是缘于此任务,它又被称为无监督的特征学习,从这个名称就可以知道这是一个没有人为参与的特征选取方法。

深度结构学习,或者通常更多人称之为深度学习,从2006年开始作为一个新兴的领域出现在机器学习的研究中。深度学习的概念是2006年由Geoffrey Hinton等人在《Science》上发表的一篇文章Reducingthedimensionalityofdatawithneuralnet-works提出来的,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点:①多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;②深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。2006年的另外3篇论文[2-4]改变了训练深度架构失败的状况,由Hinton革命性地在深度置信网络(Deep Belief Networks,DBN)上的工作所引领。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈