图像识别属于有空间结构的信号处理问题,这一问题是本章的核心问题,可是本书确实没有彻底解决神经信息的空间结构问题,这也是本书中最遗憾的地方之一。
关于神经信息的空间结构问题,只能以我们了解的知识做些讨论。在图像识别问题上目前主要有两种观点。一种观点认为,大脑内数百亿个神经元会共同作用,同时对单个概念进行编码,在这种情况下,无法将单个概念编码到某些神经元中,而必须依赖于整体神经元群的协作。另一种观点认为,大脑内某个或者某些神经元负责对单个概念进行编码。20世纪60年代,美国神经学家杰罗姆·莱特文(Jerome Lettvin)将后一种观点命名为“祖母细胞理论”,意思是说大脑中有神经元专门负责辨认家庭成员,当你失去负责对祖母细胞编码的神经元时,可能就认不出祖母细胞来了。
2005年,加州理工大学和加州大学洛杉矶分校等高校的研究者发现,大脑中有些神经元会选择性地针对比尔·克林顿(Bill Clinton)和珍妮弗·安妮斯顿(Jennifer Aniston)做出反应[8]。我们相信这一实验的真实性,但它并未证明确有祖母细胞存在。要有多少信息才能描述克林顿的脸?区别克林顿和安妮斯顿又需要多少信息?一个细胞能存储这么多信息吗?从信息论角度看,祖母细胞理论不成立。
从另一角度看,进行了这类实验之后我们还能做什么?这类试验究竟有什么意义?它们能证明祖母细胞理论吗?不一定。目前,脑科学研究中的这类实验太多了,反而影响神经信息研究。
根据分析,脑辨识图像的基本机理可能是采用了“模板匹配”方式。从视网膜处可以看到,外界图像的光在视网膜上成像。视网膜上有很多感光细胞,也就是感受细胞阵列,每一感光细胞相当于照相机中的一个像素,视网膜中心的一些细胞都是一个感光细胞(像素)经由一条神经纤维把信号传到大脑的。从视觉神经纤维传到脑内视神经区的信号,特别是在中心部位的信号,是可以重新在脑内构成一张清晰的图的,或者说,眼睛处的“细胞阵列谱”可完整地移到大脑上来。现在的问题是,脑如何从这一群信号中感觉到这张图是什么样的?
可先做一个试验,第一眼看到图10.12 所示的视觉图像时,你的反应是什么?这两张图到底像什么?这两张图具有双重性,既可以被想象为人脸,也可以被想象为女人。如果把这两张图嵌入到如图10.13(中间两张图就是图10.12)所示的一系列视觉图像中去看,又会有另一种感觉。从左向右看过去,因为首先看到的是脸,所以看中间的图像时还是以人脸的模板去比较,觉得它们和人脸很相近,认为中间的图像是人脸。从右向左看过去,由于开始看到的是女人,而且连续的都是女人,于是就会用女人的模板去比较中间的图像,觉得它们很相近,于是得出中间的图是女人的结论。
图10.12 视觉图像识别
图10.13 从头像到女人(www.xing528.com)
另外,人们在旅游中可能会有这样的经历,当看到一块石头或一座山峰时,开始没有任何感觉,如果导游说这块石头像一头大象,这座山像一个睡美人,虽然开始还会有不少人并未看出,但是一经导游介绍,大家就会越来越感到相像。
根据以上两个例子,我们是否可以认为,人的神经系统是以模板的形式来识别图像的?模板从哪里来?应该来自于记忆。当然这种模板与现在信息科学中的模板不一样,判断两个模板是否匹配也不是按现在图像处理的方法直接来比较两张图的各部分像素是否匹配。在脑中,模板应该是S 空间中的模板,而不是实空间中的模板。图像放大缩小、局部压缩拉伸等不会影响神经系统对两张图的比较。
图10.14 中是两张浙大图书馆的照片,凭肉眼一看就知道(a)和(b)是同一张图,只是图(b)有些卷曲[其实(b)是把照片(a)卷起来后再拍摄的]。仔细看看图(b),图书馆顶部和上面的天空都明显被压缩,其实这张图从纵向上基本都有不同程度的压缩。计算机需要逐点矫正后再比较,才能证明这两张图是否是同一张图,这是一个很复杂的图像辨识过程。而从S 空间看,无非是同一张图的坐标轴经历了拉伸和压缩变化,若在S 空间中取特征值,两张图的特征值应该是一样的,这里根本不存在图形处理的问题。
图10.14 两张相同的照片
人的神经系统在匹配模板时还会使用种种信息处理的方法,如去掉某些内容或补充一些内容后再进行匹配。两个模板在神经脉冲回路中实现匹配应该是可能的,但究竟如何在脉冲回路中实现这一过程?是平行的还是串行的比较?这些问题还有待研究。
图像识别除了匹配图像模板以外还有其他方法吗?确实需要再考虑这一点。但是从目前来看,还是“模板匹配”假设更合适些。
在这里,只能将图像模板与记忆中的图像模板进行比较,才能认识图10.12 是头像或是女人。因此,这里又会牵涉到信息储存的机理。如果一个人没有见过克林顿,又如何识别克林顿?是否可以说,没有记忆便不太可能有图像识别?神经系统的记忆机理是怎样的?肯定与计算机不同。但是代表这许许多多像素的信息不可能最后归并为一个细胞的信息(至少目前无人“想象”得出)。
根据同一性原理,如果图像识别是以上述讨论的“模板匹配”作为识别机制,则嗅觉中的气味识别和听觉中的语音识别都应该是用“模板”方法识别阵列谱的过程(见第7 章)。北方人听广东人说普通话,开始可能一点也听不懂,多听听后就会在脑中有记忆,就会慢慢“听懂”了。这也许正反映了识别语音也是使用“模板”方法的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。