首页 理论教育 探究有监督特征学习与分类的相关性

探究有监督特征学习与分类的相关性

时间:2023-06-22 理论教育 版权反馈
【摘要】:同样基于CNN的深度学习方法也在一系列计算机视觉标准任务测试中表现出了同样的优势。图10.1展示了文献[212]中所描述的CNN的基本结构。而其中最令人瞩目的成绩来自于2012年的ImageNet LSVRC比赛,此次比赛的任务是通过训练一个具有120万幅高分辨率图像的分类器来实现对未知测试图像进行1000种不同类别的分类。所用的测试图像集包含1.5万个数据,比赛中,使用深度CNN进行建模的方法获得了相比于本领域其他算法而言前所未有的低错误率。

探究有监督特征学习与分类的相关性

深度学习在目标识别中的最初应用可追溯到20世纪90年代早期所提出的卷积神经网络(CNN),详情请参考综述[212]。而基于CNN结构的有监督特征学习模式获得广泛关注则开始于2012年10月ImageNet竞赛结果发表之后不久(http://www.imagenet.org/challenges/LSVRC/2012/)。这主要是由于大量的有标签数据及高性能GPU计算平台的出现使得大规模CNN的高效训练成为可能,从而实现目标识别精度的大幅度提升。与基于DNN的深度学习方法在处理一系列语音识别任务(包括音素识别、大词汇量语音识别、抗噪语音识别和多语种语音识别)的效果明显优于其他主流方法的情况相类似。同样基于CNN的深度学习方法也在一系列计算机视觉标准任务测试中(包括类级别的目标识别、目标检测和语义分割)表现出了同样的优势。

图10.1展示了文献[212]中所描述的CNN的基本结构。为了包含典型图像像素对于位置的空间关联相对不变性这一特点,CNN使用了一个带有局部接受域和绑定过滤权值的卷积层,这与图像处理中的二维FIR滤波器非常类似。FIR滤波器的输出通过一个非线性激励函数来获得激励响应,接着通过一个非线性池化(pooling)层(图10.2中的“子采样”)来减小码率且同时确保输入图像发生微小变化时的不变性。最后再将池化层的输出送入若干个全连接层,就像我们在前几章介绍DNN时讨论过的一样。这样一个整体的结构在文献中也被称作深度卷积神经网络。

978-7-111-52906-4-Chapter10-3.jpg

10.2 初始卷积神经网络包含多个交替的卷积层,全连接层和紧随其后的池化层(参考文献[212],@IEEE)

图中词语翻译对照表

978-7-111-52906-4-Chapter10-4.jpg

类似于CNN这样具有卷积结构的深度模型由于其有效性从九十年代开始便一直被应用于计算机视觉和图像识别领域[57,185,192,198,212]。而其中最令人瞩目的成绩来自于2012年的ImageNet LSVRC比赛,此次比赛的任务是通过训练一个具有120万幅高分辨率图像的分类器来实现对未知测试图像进行1000种不同类别的分类。所用的测试图像集包含1.5万个数据,比赛中,使用深度CNN进行建模的方法获得了相比于本领域其他算法而言前所未有的低错误率。本次测试所使用的更大深度CNN模型包含6千万个权值,65万个神经元节点以及具有5个卷积层结合的最大值池化层。此外,两个我们前面在讨论DNN时所提到的全连接层也被用于这个CNN模型的最顶层。尽管上述讨论中所涉及的结构在早期的工作中也曾被独立研究过,但是这次比赛能够取得成功的根本原因在于其实现了这些结构的一个最优化组合。图10.3中展示了该深度CNN系统的一个整体结构,另外还有两个额外的因素也成为最后成功的关键,首先是一个称为“dropout”[166]的强有力的正则化技术,详细分析及改进请参考文献[10,13,240,381,385]。尤其是Warde-Farley等人对于dropout解耦效果的分析表明,dropout之所以能发挥作用与其不同网络成员之间可以共享参数这一机制是密不可分的。这也是为什么在一些语音识别任务上,dropout同样也获得了相当成功的应用;第二个重要因素是在计算fx)=max(x,0)的过程中,非饱和神经元也称整流线性单元(ReLU)的成功应用,这使得整个训练过程的效率被极大地提高,尤其通过GPU并行运算实现后效果更加明显。这套深度CNN系统通过使用额外的训练数据在ImageNet Fall 2011数据集上获得了位居前五名的低错误率15.3%;同时在ImageNet 2012数据集上,它在仅使用已有数据条件下也获得了16.4%的低错误率,这比第二名的26.2%要低很多,第二名的系统采用了多种分类器组合的方法,而这些分类器均使用了大量包括SIFT、Fisher向量在内的人工特征。读者可参考http://www. image-net.org/challenges/LSVRC/2012/oxford_vgg.pdf中关于最佳竞赛方法的讨论。但值得注意的是,最近Simonyan等人通过多层堆叠策略来构建深层Fisher网络拓展了Fisher向量编码方法,也可以以较小的学习代价获得同深度CNN类似的结果。

978-7-111-52906-4-Chapter10-5.jpg

10.3 获得2012ImageNet比赛冠军的深度CNN系统结构,成绩与第二名和当年其他前沿技术有很大差距(参考文献[198],@NIPS)

图中词语翻译对照表

978-7-111-52906-4-Chapter10-6.jpg

具有代表性的基于深度CNN前沿方法[198],其效果在2013年被进一步提升,此种改进是通过使用更大规模的模型以及更多的训练数据来实现的。图10.4汇总了参加2013年ImageNet ILSVRC2013竞赛中成绩最好的11个参赛系统中错误率最低的前五名,2012年的最好结果(最右侧)也作为比较基准被纳入。这里,我们可以看到在处理同样的任务时,最低错误率呈快速下降的趋势,从2012年之前的26.2%(未使用神经网络)到2012年的15.3%,最后到2013年的11.2%,而后面两年的最佳成绩均是用了基于深度CNN方法获得的。同样值得注意的是,所有2013年ImageNet ILSVRC的主流参赛作品都用到深度学习技术。例如,图10.4所示的Adobe系统便是基于文献[198]所提出的包含了dropout的深度CNN模型。并且在其网络结构中加入更多的滤波器和连接。在测试时,图像显著性被用于从原始图像中获取9个剪裁图像,并同其他5个多视角的剪裁图像合并作为输入。不同的系统对于该过程的实现方式不尽相同,其中NUS系统使用了一种非参数且自适应的方法来合并多个浅层和深层的专家系统,包括深度CNN、核函数以及GMM方法。而VGG系统[329]使用了深度Fisher向量网络和深度CNN的组合方式。此外,ZF则是基于一系列不同结构大规模CNN组合的系统。其结构的选择主要通过使用一个反卷积网络协助实现模型特征的可视化,该过程在Zeier等人[437],Zeiler和Fer-gus[435,436]以及Zeiler[434]的研究中均有描述。此外,认知视觉系统(Cognitive Vision)使用了一种基于一个DNN结构的图像分类策略。这种方法受到认知心理学的启发,认为人类视觉系统会首先掌握基本层次类别的分类,而后才能逐渐在从属级别层次进行分类,对细致目标进行识别。最后,如图10.4所示,拥有最佳表现的Clarifai系统是基于一个大而深的并且使用dropout正则化的CNN。它通过将图像下采样到256个像素来增加训练数据。该系统包含了6500万个参数。通过将多个这样的模型一起求平均来进一步提升其性能。其主要的创新点是使用了基于反卷积网络的可视化技术来确保使深度模型能发现让其获得更好的表现的因素,并以此来选择更强有力的深度结构。有关这些系统的详情请参考http://www.imagenet.org/challenges/LSVRC/2013/results.php。(www.xing528.com)

978-7-111-52906-4-Chapter10-7.jpg

10.4 ImageNet大规模视觉识别挑战赛2013(ILSVRC2013)结果汇总,这些技术代表了目标识别系统中的最前沿。数据源:http://www.image-net.org/challenges/LSVRC/2013/results.php

虽然深度CNN已被证明在目标识别任务中具有卓越的分类性能,但时至今日才有了明确的解释为什么它能表现的这么好。Zeiler和Fergus的研究工作恰恰是围绕这个问题而展开的,进而利用所获知的理解进一步提高了CNN系统的性能并且获得了非常出色的效果(即图10.4中的ZF和Clarifai系统)。在这中间,一项全新的可视化技术被开发出来用以深入了解深度CNN不同特征层之间的功能。这项技术也有助于我们理解整个网络作为一个分类器时的运行过程。该可视技术基于反卷积网络,它将原始卷积网络中间层的神经活动映射回输入的像素空间。这允许研究人员了解是什么样的最初输入模式在特征映射空间形成了一个给定的激励。图10.5(上半部)说明了一个卷积网络是如何附着到每一层的,并由此怎样通过一个闭环返回到CNN的原始输入即图像像素。信息在这个闭环中的流动是这样的。首先,一个输入图像对于深度CNN以一种前馈方式被表示出来,其目的是为了使得所有层都会计算特征。为了分析某个CNN的激励函数,同一层中其他激励函数都被置为0且其特征映射会作为附加的反卷积网络层的输入。而后,紧跟着的是一系列与CNN中前馈计算相反的连续操作,其中包含反池化、校正和滤波。这些使得位于触发选择性激励这一层之上的活动得以重建。这样的操作不断重复直至到达输入层。而在之后的反池化过程中,CNN中最大池化操作的非可逆性通过一个近似逆向逼近的方法加以解决,其最大值位于每个聚集区域之间并用一套“开关”变量加以记录。而这些开关被用来将上层重建放置到合适位置从而保留原有的激励结构。这一过程在图10.5的下半部分有所表示。

除了上面谈到的深度CNN结构外,DNN结构也在大量的计算机视觉任务上获得了成功[54,55,56,57]。可是我们并没有发现将CNN、DNN和其他相关结构在以识别为目的任务中进行直接对比的相关资料。

最后需要加以说明的是,最近关于计算机视觉中有监督学习的研究进一步表明深度CNN结构不仅在目标或图像分类中取得了成功,它同样也能在针对整幅图像的目标检测任务中取得成功[128],而相比于分类任务来说,目标检测要更加复杂。

这里,我们简要回顾一下本章所讨论的内容,深度学习紧随其在语音识别中所获得的巨大成功(第7章),它也使得计算机视觉领域的相关研究取得了长足发展。截止目前,正是基于深度CNN结构的有监督学习样式及其相关分类技术才能造成如此巨大的影响力,这尤其体现在2012~2013的ImageNet比赛中的那些最新的方法。这些方法不仅可以用于目标识别,同样还可以应用于其他一些计算机视觉的任务中。当然,一些有关CNN的深度学习方法之所以能够成功的原因以及局限性的争论依然存在,依然还有很多问题值得探讨,例如怎样定制这些方法使得它们能够应用于一些特定的计算机视觉任务以及如何增大模型和训练数据规模等。最后,本章的前一部分也涵盖了一些深度学习在计算机视觉及图像建模问题中有关非监督及生成方法的讨论。目前,在拥有充足训练数据的条件下,这些方法在目标识别中的表现还不能与有监督学习相提并论。但是,如果想要实现计算机视觉领域的长期发展以及最后的成功,无监督学习则显得更为必要。因此,要实现这一目标,许多无监督特征学习和深度学习中存在的问题依然需要开展更多的研究来加以解决。

978-7-111-52906-4-Chapter10-8.jpg

10.5 上半部分说明解卷积网络层(左)如何与CNN层(右)关联起来。解卷积网络重建CNN特征的近似值。图的下半部分解释了解卷积网络的反池化操作,在CNN池化时每个池化层的局部最大值记录在开关变量集合中

图中词语翻译对照表

978-7-111-52906-4-Chapter10-9.jpg

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈