首页 理论教育 现有二值特征学习框架的突破性成果

现有二值特征学习框架的突破性成果

时间:2023-11-19 理论教育 版权反馈
【摘要】:为了解决这一问题,研究人员利用无监督聚类算法对二值特征进行聚类,得到一系列基于实数值的聚类中心。二值特征的池化在获得测试图像的二值特征后,如何对其进行表示,也是基于二值特征人脸识别框架中的重要问题。二值特征学习框架是对训练集的二值特征进行聚类,并将其应用于测试图像二值特征的池化过程中,从而使得池化得到的基于直方图的特征更加具有数据适应性。

现有二值特征学习框架的突破性成果

基于二值特征人脸识别算法的特征映射方式可以通过基于非数据驱动(手工设计)的方式实现,也可以通过基于数据驱动(特征学习)的方式实现。但研究人员通过经验或先验知识难以预估现实场景中的人脸图像会存在哪些类内变化。因此,这种基于手工设计获得二值特征映射的方式,难以应付非约束环境下人脸图像中可能存在的类内变化。

为了解决上述问题,Lu工作在借鉴基于实数值的人脸识别框架的基础上,提出基于二值特征的人脸识别算法框架,如图2-13所示。该框架可以分为以下三个步骤。

图2-13 基于二值特征的人脸识别系统流程图

步骤1(像素差值向量提取):无论是在训练阶段还是测试阶段,首先将人脸图像分为若干个区域,并从其中提取像素差值向量;步骤2(二值编码):二值编码过程将基于实数值的PDVs映射为二值特征。步骤3(聚类和池化过程):在训练阶段,为了进一步提升二值特征的描述能力,对学习得到的二值特征进行无监督聚类,从而得到二值特征的聚类中心(或称为二值聚类字典)。在测试阶段,利用训练阶段得到的二值聚类字典中的聚类中心,对测试图像的二值特征进行重新表示,从而得到聚类中心对应权重直方图特征。接下来,将对每个步骤进行较为详细的介绍。

1.像素差值向量的提取

图2-14 提取像素差值向量(PDV)示意图

2.二值编码

二值编码是基于二值特征人脸识别框架的核心部分,其本质则是通过学习的方式得到优化的二值特征B。一方面,二值特征与基于实数值的PDVs的差异要最小,从而保证了原始人脸图像中的信息得以保留。另一方面,二值特征应具有较强的判别能力和描述能力,从而利用有限维度的特征表示,对人脸图像进行更有效的表示。二值编码过程可以抽象为将实数值向量X映射为二值向量B的过程,即:f:X→B。其数学表达式如下:(www.xing528.com)

式中,B j∈R L×NM为基于学习的二值特征,W j∈R d×L则为对应的哈希函数,也可理解为投影矩阵。符号函数sgn(·)的数学表达形式如下:

3.聚类和池化

聚类和池化过程是提升基于二值特征人脸识别框架的数据适应能力(data-adaptive)的关键一步。在训练阶段,将二值特征聚类为一系列主要模式(dominant patterns);而在测试阶段,利用上述的主要模式对二值特征进行重建,并将其统计信息作为输出特征。

(1)二值特征的聚类

由于每张人脸图像中都可以提取得到M个PDVs,而每个像素差值又可以映射为一个二值特征。因此,一幅人脸图像通过二值编码方式可以得到M个长度为L的二值特征。如果简单地将这M个二值特征进行拼接,不仅会使得一幅人脸图像的输出维度极大,而且输出特征中还存在着大量的冗余信息。为了解决这一问题,研究人员利用无监督聚类算法对二值特征进行聚类,得到一系列基于实数值的聚类中心。聚类中心描述了二值特征中占主导地位的信息的分布情况,可以将其理解为二值特征的主要模式。利用这些主要模式对二值特征进行重新表达,不仅可以滤除了二值特征中的冗余信息,同时还减少了输出特征的维度。利用聚类算法对所有训练样本的二值向量B j=[b j1,b j2,…,b jNM]学习一个二值聚类字典(即一系列的二值聚类中心)D j∈R d×K,其中K表示聚类中心的个数。因此,二值特征的表示问题则转化为二值特征与哪一个或哪些主要模式最为相似的问题。本节采用了相对简单的K-Means算法作为聚类算法。

(2)二值特征的池化

在获得测试图像的二值特征后,如何对其进行表示,也是基于二值特征人脸识别框架中的重要问题。二值特征学习框架是对训练集的二值特征进行聚类,并将其应用于测试图像二值特征的池化过程中,从而使得池化得到的基于直方图的特征更加具有数据适应性(data-adaptive)。假设某张测试图像第j个区域的二值特征向量表示为B j=[b j1,b j2,…,b jM]∈R L×M,聚类阶段得到的二值聚类字典D j均已知。则具体池化过程如下:首先,计算B j与D j平方和距离,然后为每个PDV选择一个与其最近的聚类中心,最后利用直方图统计得到聚类中心出现的次数,并将直方图作为该图像区域的输出特征Y j∈R L×1。本部分以图像区域为基本单元进行运算,每个图像区域均输出一个直方图特征作为该区域的输出特征。最后,将每个人脸区域的直方图特征进行拼接,将拼接后的长向量作为最终输出。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈