在过去的两年里,深度学习技术在计算机视觉相关领域的研究中,尤其是在目标识别方面取得了巨大进展,从而使得深度学习在该领域的成功应用获得普遍认可。这也是继语音识别领域之后,深度学习技术获得成功应用的第二个领域,而有关语音识别方面的内容我们此前在第2章和第7章已经讨论过。
这方面,值得推荐的关于深度学习在计算机视觉方面近期研究进展的综述已收录在NIPS-2013的会议文献指南中https://nips.cc/Conferences/2013/Program/event.php?ID=4170,其视频资源http://research.microsoft.com/apps/video/default.aspx?id=206976&l=i和PPT资源http://cs.nyu.edu/~fergus/presentations/nips2013_final.pdf。在CVPR-2012的会议文献指南中也有相关主题的讨论(http://cs.nyu.edu/~fergus/tutorials/deep_learning_cvpr12)。本章接下来所涉及的一些内容和评述便是基于上述会议文献指南的部分内容并与书中前几个章节的内容进行关联。此外,另一值得推荐的参考文献来源于近期一篇关于深度学习在计算机视觉中应用的博士学位论文[434]。(www.xing528.com)
多年来,计算机视觉中的目标识别任务长期依赖某些人工设计的特征,例如SIFT(Scale Invariant Feature Transform)和HOG(Histogram of Oriented Gra-dients),这点同语音识别领域长期依赖MFCC和PLP特征的情况非常相似。然而,诸如SIFT和HOG的此类特征仅仅是对图像中低级别的边缘信息进行描述与表征。若要描述图像中高级信息例如边缘交叉和局部外观等,此类特征便显得力不从心了。针对上述问题,深度学习可以通过无监督和有监督的学习方法直接从数据中获得层级化的视觉特征,从而提供一套更为有效的解决方案。在下面的讨论中,我们将多种应用于计算机视觉领域中的深度学习方法分为两类:(1)无监督特征学习,该类方法通常仅仅将深度学习用于进行特征提取,而后获得的特征会被直接作为一些简单的机器学习算法的数据加以训练以实现分类等任务;(2)有监督的特征学习,当获取大量有标签训练数据成为可能时,此类方法可以通过首尾相连的学习策略实现整体系统中特征提取与分类器组件更新的联合最优化,从而更加有效地完成复杂的分类、识别等任务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。