感知并不是“一个词”,而是“两个字”。这两个字分别描述了两个不同的过程,并且,这两个过程在任务上是“互逆的”。本书只研究视觉感知,此时,“感知”二字的具体过程如下:
•“感”字的意思是成像:通过物理系统对场景进行测量,测量结果被以图像的形式记录下来。
•“知”字的意思是描述:通过分析图像(即:对场景的测量结果),提取出关于场景(即:被测量对象)的有用信息。
“感”的过程是由“场景”到“图像”;“知”的过程是由“图像”到“场景”,也被称为机器视觉。
图1.1 智能一体化的光电感知系统用以实时地识别和跟踪道路车辆,为后续的智能交通控制任务(例如智能红绿灯管控)提供输入信息。
总结一下,“感知”过程就是:
•首先,对场景进行测量(即:成像);然后,通过分析测量结果(即:图像),获取关于场景的描述信息。(www.xing528.com)
在图1.1所示的智能一体化光电感知系统中,通过多普勒雷达和(可见光)相机两种方式,分别对道路上的车辆进行成像;然后,将两种“图像”融合在一起,实时地进行目标识别和跟踪,为后续的智能交通控制任务(例如红绿灯管控)提供输入信息。所得到的信息并不是对场景的复原,而是一种关于场景的符号描述,例如:路口有多少辆车,车辆的状态(运动还是静止)等等。
在这门课中,我们需要对“图像”的概念进行拓展,
•图像是物理设备对场景的测量结果。图像不仅仅是我们平常看见的一张张照片,还包括其他形式的场景测量结果,例如:雷达扫描得到的点阵、X光片、红外辐射图像、激光雷达生成的点云图像、宇宙射线辐射图像等等。
在这里,我们再一次强调,机器视觉(即:感知中的“知”)的核心问题是:
•从一张或多张图像中生成一个关于场景的描述!
事实上,视觉是我们最强大的感知方式,它为我们提供了关于周围环境的大量信息;从而使得我们可以在不需要进行身体接触的情况下,直接和周围环境进行智能交互。离开视觉,我们将丧失许多有利条件,因为通过视觉,我们可以了解到:物体的位置和一些其他的属性,以及物体之间的相对位置关系。因此,不难理解为什么几乎自从数字计算机出现以后,人们就不断地尝试将视觉感知赋予机器。
视觉同时又是我们最复杂的感官。我们所积累的关于生物视觉系统的实现方式的知识,仍然是不完整的;并且,这些知识主要是关于:生物视觉系统对直接来自感知器的信号的处理过程。但是,我们所知道的是:生物视觉系统的确是非常复杂的!难怪许多将视觉感知赋予机器的尝试最后都以失败告终。但是,在这个过程中,人类仍然取得了巨大的进展。现在,那些能够在各种不同环境下工作的视觉系统,已经成为很多机器的一部分。
需要指出的是,在那些使用计算机来从图像中获取不明确信息的领域中,计算机视觉所取得的进展较少。这是因为即使是人都难以对某些信息进行解释。当我们在处理那些无法由人类视觉感知的光所形成的图像时,常常会发生这种情况。这方面的一个典型例子是:对肺部的X射线成像结果进行解释。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。