首页 理论教育 多源信息融合的人脸识别算法

多源信息融合的人脸识别算法

时间:2023-11-19 理论教育 版权反馈
【摘要】:本节介绍基于多尺度融合的主成分分析网络的人脸识别算法,从而解决了现有CNN模型中存在的信息瓶颈问题和单一尺度池化的问题,减小了CNN模型由于信息瓶颈问题而导致的信息损失,以及池化过程中单一池化尺度所导致的信息损失。图2-21展示了MS-PCANet算法的结构框图。以两层的MS-PCANet算法为例,第一卷积层输出的特征图中主要包含了人脸图像的低层局部信息,而第二卷积层输出的特征图中则包含了人脸图像的高层全局信息。

多源信息融合的人脸识别算法

本节介绍基于多尺度融合的主成分分析网络(Multiple Scale combined Principal Components Analysis Network,MS-PCANet)的人脸识别算法,从而解决了现有CNN模型中存在的信息瓶颈问题和单一尺度池化的问题,减小了CNN模型由于信息瓶颈问题而导致的信息损失,以及池化过程中单一池化尺度所导致的信息损失。

MS-PCANet是在PCANet的基础上,针对PCANet和现有卷积神经网络存在的问题提出的。MS-PCANet模型主要由卷积层、非线性处理层、池化层和输出层这四部分组成。在卷积层中,利用无监督的PCA算法提取人脸图像块中的主成分特征向量(leading eigenvectors),然后将其变形(reshape)为矩阵的形式,将其作为卷积层的卷积核。利用PCA算法得到的主要特征向量表示的是训练样本中信息量最大的投影方向,即训练样本中最主要的局部模式。将这些特征向量变形为矩阵并将其作为卷积核,可以通过非监督的形式提取人脸图像中出现最重要(即具有最大信息量)的局部模式。在非线性处理层中,MS-PCANet模型使用简单的二值哈希作为激活函数。由于MS-PCANet模型关注的是某个神经元是否对特定卷积核产生了响应,而不是响应的幅度。因此,MS-PCANet模型只保留卷积结果的符号信息,而舍弃了卷积结果的幅值信息。在池化层中,通过参考LBP算法的编码(encoding)策略,为一系列非线性(二值)处理后的二值特征图赋以权重,然后对一系列二值特征图按元素相加,最终得到一幅实数值特征图。为了解决现有CNN模型难以兼顾细粒度和粗粒度池化的问题,采用空间金字塔池化技术,从细粒度到粗粒度地对实数值特征图进行池化,从而减小了池化过程中的信息损失。在输出层,为了解决现有CNN模型存在的信息瓶颈问题,将多个卷积层的直方图输出进行连接,从而构成了包含有局部信息和全局信息的输出特征,从而避免了信息传播过程中的瓶颈问题。图2-21展示了MS-PCANet算法的结构框图。

图2-21 基于两层的MS-PCANet模型结构框图

1.MS-PCANet的卷积层j1×j2。假设从第i幅人脸图像的每个像素点采样大小为j1×j2的局部图像块,采样步长为s。将上述操作应用于所有训练人脸图像中,从而得到去均值后的数据矩阵:

MS-PCANet算法从矩阵A中利用PCA算法学习第i层特征图的主要特征向量V(i)。其中,PCA算法的目标函数为

将矩阵A通过PCA算法得到前l1个特征向量的运算简化为fl1(A)。

因此,第一个卷积层的输出可以表示为(www.xing528.com)

2.MS-PCANet的非线性处理层

4.MS-PCANet的输出层

为了避免现有CNN网络在信息从低层到高层的传播过程中由于瓶颈问题而产生的信息损失,MS-PCANet将多个卷积层的特征图分别进行非线性处理和多尺度特征池化,并将输出结果进行拼接,最终得到多层级的输出特征。

以两层的MS-PCANet算法为例,第一卷积层输出的特征图中主要包含了人脸图像的低层局部信息,而第二卷积层输出的特征图中则包含了人脸图像的高层全局信息。为了得到同时包含有局部信息和全局信息的输出特征,将第一和第二卷积层输出的特征图分别进行非线性处理和多尺度特征池化,非线性处理提升了输出特征的非线性描述能力,而多尺度池化不仅有效地减少了池化过程中信息的损失,还减小了特征输出的维度。最后,将第一卷积层池化后的特征与第二卷积层池化后的特征进行拼接,构成了包含有局部细节信息和全局语义信息的输出特征,即

式中,fi,1表示第i个图像的第一卷积层对应的池化后的输出特征,而fi,2则表示第i个图像的第二卷积层对应的池化后的输出特征,fi表示MS-PCANet模型对于第i个图像的最终输出特征。

图2-22 多尺度池化层的结构示意图,本结构图中的空间金字塔尺寸[4×4,2×2,1×1]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈