首页 理论教育 无监督或生成特征学习的发展与应用

无监督或生成特征学习的发展与应用

时间:2023-10-17 理论教育 版权反馈
【摘要】:当有标签数据相对缺乏时,无监督学习算法可以体现其对于视觉特征层级结构的学习能力。事实上,基于有监督学习的CNN层级化结构已经在2012年的ImageNet比赛中获得巨大成功,而在这之前,计算机视觉领域对于深度学习的应用一直都仅限于以无监督学习为目的的特征提取。这种无监督的特征学习模型,允许系统在无需判断有标签训练样本是否含有人脸的情况下实现人脸检测。

无监督或生成特征学习的发展与应用

当有标签数据相对缺乏时,无监督学习算法可以体现其对于视觉特征层级结构的学习能力。事实上,基于有监督学习的CNN层级化结构已经在2012年的ImageNet比赛中获得巨大成功,而在这之前,计算机视觉领域对于深度学习的应用一直都仅限于以无监督学习为目的的特征提取。最早提出并证明可将无监督深度自编码方法应用于DBN模型预训练的是Hinton和Salakhutdinoy,该方法在仅有60000个训练样本的MNIST数据库上成功实现了图像的识别和降维(编码)任务。

有趣的是,关于编码效率,基于自编码的DBN相比于传统的主成分分析在图像数据上的性能提升与相比于传统矢量量化技术在语音数据上的提升情况非常相似。此外,Nair和Hinton提出了一个改进的DBN,该DBN的顶层使用了一个三阶的玻尔兹曼机。当这种DBN应用于NORB数据库(一个三维目标识别任务数据库)上时,其错误率几乎下降到了目前所公布的最低错误率,这再次表明了DBN在很大程度上是优于类SVM这样的浅层模型的。随后,进一步提出了两种提高DBN鲁棒性的策略。首先,DBN第一层的稀疏连接被用来作为一种模型正则化的手段;接着通过一种基于概率的降噪算法来加以实现。当这两种技术同时作用时,可以有效提高当遮挡和随机噪声存在时图像识别的鲁棒性。同时,DBN也被成功地应用于创建以检索为目的的图像含义表征方面。尤其是在大规模图像检索任务中,基于深度学习的方法同样获得了很好的效果。此外,使用时序化条件DBN来进行视频序列与人体运动合成的相关应用也有所报道。其中谈到的条件RBM和DBN是通过将RBM和DBN的权重与一个以前次数据处理为条件的定宽时间窗相关联,这类时序DBN及相关的递归网络提供了一种计算工具使得将DBN-HNM模型演化为更加高效的DBN言语生成模型成为可能,而该模型集成了以时间为中心的言语生成机理。正如我们之前所提到的,基于深度学习的方法种类很多,主要包括层级概率模型和生成式模型(神经网络等)。随机前馈神经网络是这类算法中开发并应用干面部表情数据库的一个最新典例,该模型既可以进行高效的学习又可以在输出空间产生一个类似于混合高斯模型的多模分布,而这是标准的、确定性的神经网络所无法做到的。如图8-14所示,是一个具有四个隐层的典型的随机前向神经网络,该网络混合了确定和随机两种神经元(左图)来实现多模分布(右图)。这种随机网络是一个深层的有向图模型,其产生过程开始于输入X,一个代表人脸的神经元,输出y则代表面部表情。在面部表情分类实验中,通过将基于此种随机网络的无监督学习所获得的隐特征与基于图像像素的显特征加以结合,可以获得比条件化RBM/DBN基线分类器更高的准确率。

目前,无监督深度特征学习在计算机视觉领域研究中最值得关注的研究进展(先于最近CNN的大量使用)也许是一个结合了子采样和局部对比度归一化的九层局部相连的稀疏自编码器。该模型拥有多达10亿个连接,并且在含有近1千万张互联网的图像的数据集上进行训练。这种无监督的特征学习模型,允许系统在无需判断有标签训练样本是否含有人脸的情况下实现人脸检测。而且,控制实验进一步表明,这种特征检测器对于平移、尺度变化和平面外旋转都具有很好的鲁棒性。

图8-14 左:典型的四隐层随机前馈神经网络结构。右:该网络产生的两个不同(www.xing528.com)

模式分布,并在给定原始面部r后所得到的代表两个或多个不同的面部表情少

图中词语翻译对照表

无监督深度特征学习在计算机视觉领域中另一类比较流行的研究是基于深度稀疏编码的模型。相比于利用CNN结构进行有监督的特征学习和分类的方法,此类深度模型可以在ImageNet数据集上针对目标识别任务获得更高的准确率从而代表了当前该领域发展的最新水平,而具体内容也就是我们接下来所要讨论的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈