光电感知系统通过“成像”(即:对场景进行测量,以图像的形式保存测量结果)和“视觉”(即:机器视觉系统根据图像生成关于场景的符号描述)两个过程,得到了关于场景的符号描述。智能体将根据:光电感知系统得到的关于场景的符号描述,生成控制指令,进而实现与环境或场景的智能交互。因此,“感知”“交互”和“控制”应该放在一起考虑!具体地说,
•“成像”提供“感知”基础;
•“感知”是为了“交互”;
•“交互”离不开“控制”;
•“控制”依赖于“感知”结果;
•“感知”要针对“控制”任务;
•“智能”体现在“交互”过程。

图1.4 用来实现“复制演示”的机械操作系统。在这个工程中,视觉信息被用于:指导工业机器臂的运动(本图由Steve Slesinger拍摄)。
1.3.1 复制一个积木结构
1970年,三位年轻的MIT科学家Patrick W inston,Berthold K.P.Horn和Eugene Freuder构建了一个进行“结构复制”的演示系统,如图1.4所示。该系统形象地展示了上述理念:感知是为了交互和控制,而交互和控制的效果体现了光电感知系统的好坏,具体地说,就是感知过程所获取的场景信息对于完成某一特定任务是否有效!
“结构复制”演示系统使用一个边缘查找器来对(由积木搭建起来的简单几何结构的)图像进行分析。由Berthold K.P.Horn和Thomas Binford共同开发的Horn-Binford线查找算法被用来从图像中得到线条图,进而生成一个关于场景的符号描述。通过这个符号描述,物体被确定下来了,并且,物体之间的空间位置关系也变得清晰明确。基于这个符号描述,我们可以得到一个算法,进而,将这个简单几何结构一步步地拆解成:一些积木(即:基本结构单元)的组合结果。

图1.5 “复制演示”系统的工作过程。场景是由几个积木搭建起来的简单几何结构;而“复制演示”系统在光电感知算法的指导之下,选取基本积木单元,搭建起一个和场景相同的几何结构。
独立的校正程序被用于确定:图像的“扭曲”以及“眼—手”变换(即:相机坐标系与机械操作坐标系之间的转换)。机械操作系统的装配过程是:我们前面得到的拆解步骤的逆过程。于是,机械系统使用“仓库”中多余的积木,搭建起一个和原来的简单几何结构相同的结构,如图1.5所示。在“结构复制”演示系统的运行过程中,感知和控制被有效地结合在了一起,从而实现了的“智能”交互:摆放出一个(和用户随意摆放的积木结构)相同的积木结构。这个功能体现了机器的“学习”能力,也反映出早期人工智能先驱们对人工智能技术的一些探索和思考。MIT“结构复制”演示系统是人工智能领域的一个里程碑,开创了机器视觉这个学科。需要指出的是:Patrick W inston和Berthold K.P.Horn在完成这项工作时都还是学生,我们年轻人就应该以他们为榜样,建立起勇于探索、敢于开创的科学精神。

图1.6 在很多情况下,从一张或多张图像中获取关于场景的符号描述的过程,可以被分为两个阶段。第一个阶段依赖于:我们对成像过程的理解;第二个阶段则更多地依赖于:实际应用的需要。
根据图1.5所示“结构复制”的演示系统,我们在本书中给出了一个关于智能光电感知的独特观点:
•通过“光电”转换技术对场景进行测量,生成(电信号阵列形式的)图像(即:感),通过分析图像,生成关于场景的符号描述(即:知)。感知系统所生成的符号描述,被用来(控制智能体)实现与环境之间的智能交互。
对于一个智能光电感知系统,核心任务是“感知”,实现手段是“光电”转换技术,“智能”描述的是功能效果。
![]()
智能光电感知系统的输出结果是:一个对于智能交互有效的(关于场景的)符号描述。通常,从图像中生成符号描述的过程可以被分为以下两个阶段(参见图1.6):
•第一阶段:生成一个素描图,即:一个详尽的、但是未经加工处理的描述。
•第二阶段:生成一个简化的、有结构的描述,用来进行决策。(https://www.xing528.com)

图1.7 基于智能光电感知的“零件抓取”演示系统的设计者Berthold K.P.Horn(右)与其两位博士生K.Ikeuchi(左)和H.K.Nishihara(中)的合影。
第一个阶段被称为图像分析,也称为早期视觉;第二个阶段被称为场景分析。这两个阶段有几分相似,其主要区别是:图像分析从图像开始,而场景分析从素描图开始。将图像变为素描图似乎取决于:1)图像的内容,2)我们能从图像中直接获取的信息。另一方面,将一张粗糙的素描图变为一个完整的符号描述,则主要取决于:针对某种特殊的智能交互任务所需要的信息。
1.3.2 从容器中抓取零件
另一个经典的例子是Berthold K.P.Horn教授团队在1983年构建的“零件抓取”智能演示系统。对于图1.8所示的一个完整的“眼—手”系统,我们需要使用由“眼”(即:摄像机)所获取的信息来控制机器臂,从而实现:从一堆物体中抓取一个物体的任务。这样的一个“闭合环路”系统,提供了一种测试光电感知方法的平台。也就是说,如果该“眼—手”系统可以很好地与环境进行交互,那么,系统中的光电感知部分应该是起作用的。较之于将结果以图像的方式显示在屏幕上,能否有效实现智能交互是一个更加“有说服力”的测试。你可能会觉得:对于一个“眼—手”系统来说,“零件抓取”任务是很容易实现的。之所以会产生这种想法,是由于人的眼、手和大脑具有非常强大的感知和处理信息的能力。但是对于机器,“零件抓取”却是一个非常困难的任务!

图1.8 对于“零件抓取”智能演示系统,机器人需要在一堆随机摆放的物体中,将物体一个个地抓取出来。要完成这一智能交互任务,机器人的控制系统所需要的输入信息包括:各个物体的空间位置和姿态。
我们之所以关注于“零件抓取”任务,一个重要的原因是出于实际生产的需要。对于工业机器人,一个广泛存在的问题是:它们无法完成“没有精确指导”的任务。对于很多自动化系统,需要有单独的人(或装置)将原件以某种固定的“姿态”摆放在传送带上的固定位置。这个例子中,智能交互体现在:利用光电感知方法来自动引导机器臂,从而将随机摆放的零件(从一堆零件中)一件一件地取出来。我们再次强调:

图1.9 使用光度立体视觉技术,通过控制光源,我们可以根据三张具有不同亮度模式的图像,来估计出物体表面单位法向量的分布,进而得出物体的形状和姿态。
•要实现“智能”交互,需要(从任务出发)将感知和控制有效地结合在一起!
智能更多地体现在实现“交互”功能的过程中。
对于“零件抓取”任务,控制系统需要的信息是:1).零件的空间位置,2).零件的姿态。注意,上述信息是三维的,而图像信息是二维的。因此,图像并没有直接提供上述信息。我们需要通过分析(一张或多张)二维图像,推测或估计出(智能交互任务所需要的)对三维场景的有效描述信息。例如,我们可以通过使用三个(不同位置的)光源得到三张图像(图1.9(a)、图1.9(b)和图1.9(c));然后,根据三张图像中不同的亮度模式,估计出物体表面各个“小块”的朝向(图1.9(d))。根据物体表面各个“小块”的朝向,可以直接得出物体表面各个“小块”的形状,将所有这些“小块”拼接在一起,就得到了物体表面的形状,进而直接得到了物体在空间中的姿态。相应的机器视觉技术被称为光度立体视觉,参见第3章3.8小节的内容。

图1.10 我们首先将图像中面积最大的“物体区域”分割出来,作为待抓取的对象;然后,根据针状图所描述的物体姿态,进一步确定机械臂的最佳抓取角度。
根据图1.9中的结果,我们首先将图像中面积最大的“物体区域”分割出来,作为待抓取的对象,如图1.10(a)所示。机器视觉系统所估计出来的(图像区域中各个像素点所对应的)物体表面各个“小块”的朝向构成了一张针状图,如图1.10(b)所示。针状图将被进一步用于确定机械臂的最佳抓取姿态。
在上述光度感知系统的“指导”下,机器臂从一堆物体中,将物体一个一个地抓取出来。图1.11是从完整的演示视频中选取出来的部分图片,展示了机械臂的具体操作过程。“零件抓取”这个智能交互任务的顺利完成,说明光电感知系统成功地获取到了关于场景的有效描述信息,即:各个物体的空间位置和姿态。再次地,我们看到,光电感知系统获取场景描述信息的过程包括如下两个步骤:
1.成像系统(在不同的光照条件下)拍摄多张图像;

图1.11 本序列图所展示的是:一个由光度立体视觉系统所指引的机器臂,从一堆(随意摆放的)物体中,将物体一个一个地抓取出来的过程。
2.机器视觉系统(根据这些图像)计算出一个针状图。针状图给出了物体表面各个“小块”的朝向。这些“小块”的朝向被逐一地用于计算朝向统计直方图。实验中所得到的朝向统计直方图被用于:和计算机所存储的(典型物体模型的)朝向统计直方图进行比较。这些事先存储的朝向统计直方图是根据物体的典型几何模型计算出来的。通过这种方法,我们得到了物体在空间中的姿态。于是,机器臂可以沿着空间中的一条射线移动,从而去抓取物体。
当然,我们也可以通过其他测量方法,来获取物体表面的相关信息,例如,通过激光测距仪或者双目视觉技术来得到深度图,然后,根据深度图来“指导”控制系统完成智能交互。通过这个例子,我们看到了:如果在简单启发式方法的基础上,我们再向前迈出一步,那么,一个具有鲁棒性的实用机器视觉系统就可以被设计出来。这个系统成功的关键在于:光度立体视觉、朝向统计直方图等概念。最终,我们建立起了一种关于机器视觉的新的研究观点和方法:
•基于对物理成像模型的细致分析,依据逆问题理论和方法,通过对成像过程“求逆”,来获取有效的场景描述信息。
称为机器视觉领域中的Horn学派。此后,机器视觉才成为一门严谨的学科。当然,机器视觉方法是否有效还取决于成像,参见图4.4。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
