LeNet-5[2]是由燕乐存等人提出的一种专门用于二维图像识别的卷积神经网络,该网络避免了人工提取特征依赖于主观意识的缺点,只需要将归化大小的原始图像输入网络,该网络就可以直接从图像中识别视觉模式。LeNet-5把特征提取和识别结合起来,通过综合评价和学习,并在不断的反向传播过程中选择和优化这些特征,将特征提取变为一个自学习的过程,通过这种方法找到分类性能最优的特征。LeNet5已经成功应用于银行对支票手写数字的识别中。
卷积神经网络可以从很多方面着手改进。诸如多层前馈网络,可以考虑在误差函数中增加惩罚项使得训练后得到趋向于稀疏化的权值,或者增加一些竞争机制使得在某个特定时刻网络中只有部分节点处在激活状态等。此处主要从卷积神经网络的层次化以及局部邻域等结构上的特点入手,考虑卷积神经网络中各层特征图数量及大小对网络训练过程及识别结果的影响。以LeNet-5结构为基础,去除掉LeNet5中的一些针对手写字符识别而特别设计的连接方式及参数,得到改进后的神经网络。在此基础上,改变网络中各层特征图的数量以形成新的网络模型。定义一种新的网络模型,将其命名为LeNet-5.1,该网络结构与LeNet-5基本相同,主要做出以下改变:
(1)将原先LeNet-5所采用的激活函数由双曲正切数修改为Sigmoid函数,此时,网络中所有层的输出值均在[0,1]区间内,输出层的最终结果也将保持在[0,1]区间内。
(2)省略掉F6层,将输出层与C5层直接相连,连接方式为全连接,而不是原LeNet-5中所采用的径向基函数(RBF)网络结构。(www.xing528.com)
(3)简化原LeNet-5中的学习速率。原LeNet-5网络中采用的学习速率为一个特殊的序列,而在本网络中将学习速率固定为0.002。
(4)输入数据原始尺寸为28×28,采取边框扩充背景像素的方法将图像扩充至32×32。
之所以做以上相关改动,是因为原始的LeNet-5就是专门为手写字符识别任务而特殊设计的,这就造成了eNet-5网络中相关的预处理及参数的选择过程或多或少均带有一些针对特定问题的先验知识。例如激活函数f(x)=a tanh(bx)中参数的选择,学习速率中特定的速率序列以及数据预处理中特殊的填充方式等,这些特定的设计使得Le net-5在其他任务的识别过程中并不一定适用,或者需要进行长期的观察实验以选得一组针对特定任务的较好的值,造成了LeNet-5不能快速的应用于除手写字符外其他的识别任务中。[3]
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。