人们在谈论人类视觉感知时,在本质上讨论的是利用环境中物体所反射的可见光谱中的光线来解释周围环境的能力。近年来,对图像识别的兴趣激增主要集中在这一类型的感官输入上。例如,无人驾驶汽车就需要显著改进其视觉处理和识别能力,以及其他关键感官输入,以辅助自动驾驶系统做出正确的决定。
一般来说,机器感知模拟人脑可以毫不费力地理解感官输入,特别是视觉、听觉和触觉。大脑的视觉皮层是处理来自眼睛的视觉信息的关键器官。视觉在生命的早期阶段迅速发展,并作为发展认知、行动、沟通和与环境相互作用的基础。当人们需要更快速地处理视觉效果时,大脑神经元通过互连进行信息沟通,提高处理能力。人类处理视觉输入比处理文本输入快60 000 倍。
如前所述,人工智能发展到现在,诞生了机器学习和深度学习的分支,现有的图像分类模型主要是基于深度神经网络的模型。图像分类模型一直是深度学习中的重要研究领域,其所执行的分类任务在现实世界中有重要意义,如农作物病虫害的分类、医学研究领域癌症细胞的分类、军事方面武器种类的分类等。同时,分类任务也是检测、识别、追踪等任务的基础。
图像识别[4-10]历史悠久,在计算机视觉、物体识别、机器视觉、场景理解、图像理解、图像分类和图像分析等分支下,存在相关和/或同义字段的图像识别。计算机(或机器)的视觉在总体上涵盖了识别,同时它还涉及图像重组和重构。在更高层次上,有以下两种不同的技术方法能够解决图像识别任务。
第一种方法的重点在于从图像中查找和提取人工设计的特征(如边缘、角落、颜色),以帮助分类对象,称为传统图像识别。虽然人脑擅长对物体进行分类(成长初期就开始发展),但人脑在视觉处理中到底使用哪些特征尚不清楚。自20 世纪八九十年代以来,传统的图像识别方法通常先从图像中提取一系列特征(实际上是利用多年的实验和分析手动编码),然后使用学习算法来基于这些人工设计特征来识别图像中的对象。
在第二种方法中,目标仍然是提取帮助识别图像中的对象的特征。然而,它不利用人工设计的特征,而利用自动化程序来从原始图像像素数据中“学习”这些显著的特征,在学习过程中需使用大量图像。人工神经网络模型(特别是深度神经网络),近年来已经彻底改变了这种方法。如前所述,深层神经网络是可能具有更多神经元层的神经网络,其中每层神经元都连接到下一层(不一定完全连接),并且能够学习输入图像的更高层表示(特征)。这个设想已经存在了很长一段时间,然而直到计算机技术在近十年来具备了处理巨大的图像数据集的能力,这种方法才变得可行。它已经引起了计算机视觉方面的革命。当使用深度神经网络时,学习被称为深度学习。
图像分类是计算机视觉中最基础的一项任务,属于计算机视觉领域,也是几乎所有基准模型进行比较的任务。简单来说,就是教会计算机如何去“看”输入的图像,这是人工智能需要解决的重要问题。图像分类是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。图像分类,顾名思义就是一个模式分类问题,它的目标是将不同的图像划分到不同的类别,以实现最小的分类误差。总体来说,对于单标签的图像分类问题,它可以分为跨物种语义级别的图像分类、子类细粒度图像分类、实例级图像分类。从最开始比较简单的10 分类的灰度图像手写数字识别任务MNIST[11],到后来大一些的10 分类的CIFAR − 10 和100分类的CIFAR − 100 任务,再到后来的ImageNet 任务,图像分类模型伴随着数据集的增长,一步一步提升到了今天的水平。现在,对于 ImageNet这样超过 1 000 万幅图像、两万多个分类的数据集,计算机的图像分类水准已经超过了人类。图像识别问题的数学本质属于模式空间到类别空间的映射问题。在2012 年,欣顿研究小组[4]采用与其他参赛选手不同的深度学习方法赢得了ImageNet 图像分类比赛的冠军,并且分类结果的准确率超出第二名10%以上[12]。这个前所未有的结果对当时推崇机器学习的计算机视觉领域产生了极大的震动,从而引发了深度学习的热潮。
具体来说,图像分类的任务就是对于一个给定的图像,预测它属于的那个分类标签(或者给出属于一系列不同标签的可能性)。图像是 3 维数组,数组元素是取值范围为0~255 的整数。数组的大小是宽度×高度×3,其中“3”代表红、绿、蓝这3 个颜色通道。
例如,对于人来说,识别一个“像猫一样”的视觉概念是很简单的,然而从计算机视觉算法的角度来看就不那么简单了。下面列举了计算机视觉算法在图像识别方面遇到的主要难点。
● 视角变化(viewpoint variation):对于同一个物体,摄像机可以从多个角度来展现。(https://www.xing528.com)
● 大小变化(scale variation):物体可视的大小通常是会变化的(不仅是在图像中,而且在真实世界中大小也是变化的)。
● 形变(deformation):很多物体的形状并非一成不变,而是会有很大变化。
● 遮挡(occlusion):目标物体可能被挡住。有时候只有物体的一小部分(可以小到几像素)是可见的。
● 光照条件(illumination conditions):在像素层面上,光照的影响非常大。
● 背景干扰(background clutter):物体可能混入背景,导致其难以被辨认。
● 类内差异(intra − class variation):一类物体的个体之间的外形差异很大(如椅子),这类物体有许多不同的对象,每个都有自己的外形。
与传统的识别方法相比,基于深度学习的图像分类的最大不同在于它得到的图像特征数据不是人工采集到的,而是通过大数据主动学习得到的。在深度学习应用于图像识别之前,人工设计特征方法的地位难以撼动,而人工设计主要依赖于设计者的先验知识,但这在大数据时代是远远不够的。一个识别系统包括特征和分类器两部分,在传统的识别方法中,这两部分的优化过程是分开的;而在深度学习中,它们可以共同进行优化,使二者的协作性能最大限度地发挥。在特征学习中,好的特征将更好地提高图像识别的正确率。例如,在一幅人脸图像中,就包含着各种不同的特征信息,如姿态、表情、年龄等。深度学习的关键就是通过非线性映射将各种关键特征区分开,使各特征信息之间的关系变成简单的线性关系,这样特征估计就会变得十分简单。
图像分类的深度模型的主要优势就在于它的“深”,这意味着神经网络结构的层次较多。研究表明,使用浅层模型进行特定的分类任务所需的计算量会呈指数增加,以致很难实现。而深度模型可以利用多层中间层的计算来减少参数,通过特征的分布式表示来达到比浅层模型更高的表达能力和效率。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
