首页 理论教育 多源视觉信息感知与识别:人脸识别数据库

多源视觉信息感知与识别:人脸识别数据库

时间:2023-11-19 理论教育 版权反馈
【摘要】:人脸识别数据库包括:早期的ORL数据库、Yale B数据库、UMIST数据库和AR数据库等。表5-1常用的人脸识别数据库续表人脸验证数据库包括:LFW数据库、PaSC数据库、You Tube数据库等。表5-2常用的人脸验证数据库为了验证本书中提出若干个算法的有效性,主要使用FERET、CAS-PEAL-R1和CMU Multi-PIE数据库进行人脸识别任务的测试,使用LFW和PaSC数据库进行人脸验证任务的测试。该数据库包括了1 199个人的14 126张人脸图像,FERET数据库可分为训练集和测试集。

多源视觉信息感知与识别:人脸识别数据库

从现实场景中采集的人脸数据库人脸识别研究是至关重要的。有很多研究机构和课题组收集并公开了人脸数据库,并为其设计了相应的测试协议,使得研究人员可以公平、公开地评测某种人脸识别算法。人脸数据库可按照具体的任务划分为:人脸识别数据库和人脸验证数据库。

人脸识别数据库包括:早期的ORL数据库、Yale B数据库、UMIST数据库和AR数据库等。这些数据库由于当时诸多条件的限制,数据库规模通常只有几十个人的上百张人脸图像,且数据库中包含的类内因素变化单一。2000年以后,随着图像采集设备的不断发展,获取人脸图像的成本也越来越低。诸如CMU PIE、CMU Multi-PIE、FERET、CAS-PEALR1、Oulu Physics-based等大规模约束条件下的人脸数据库被不断公开。这些数据库规模通常包括上百个人的几千张或几万张人脸图像,且数据库中包含了现实生活中可能遇到的多种类型的类内因素,如:表情、光照、老化和遮挡等。正是由于这类数据库的公开,大幅度地促进了人脸识别算法的发展。各数据库的具体信息如表5-1所示。

表5-1 常用的人脸识别数据库

续表

人脸验证数据库包括:LFW数据库、PaSC数据库、You Tube数据库等。各数据库的具体信息如表5-2所示。另外,这些数据库的发布者们为了方便研究人员针对人脸数据库进行二次开发和研究,很多数据库还提供了人脸图像的基础信息(如:眼角、鼻尖和嘴角的位置等)和属性信息(如:肤色、性别、年龄等)。

表5-2 常用的人脸验证数据库

为了验证本书中提出若干个算法的有效性,主要使用FERET、CAS-PEAL-R1和CMU Multi-PIE数据库进行人脸识别任务的测试,使用LFW和PaSC数据库进行人脸验证任务的测试。这五个数据库都提供了明确的测试协议,从而保证了性能测试的公平。接下来,对这五个数据库进行详细介绍。

(1)FERET数据库:该数据库是针对人脸识别问题而设计的。该数据库的模板集中每个人只有一张人脸图像,这与实际人脸识别任务中的单样本识别场景(如:基于身份证的安全检查、VIP验证等)是一致的。因此,利用该数据库进行算法测试是具有理论和现实意义的。

该数据库包括了1 199个人的14 126张人脸图像,FERET数据库可分为训练集和测试集。其中,训练集包含有429个人的1 002张人脸图像;而测试集又可划分为5个子集,包括:Fa、Fb、Fc、Dup-1和Dup-2。其中,Fa拥有1 196个人的1 196张人脸图像,作为模板集使用,而其余四个子集被用作探测集。Fb中有1 195个人的1 195张人脸图像,主要包含了表情类内因素变化;Fc中有194个人的194张人脸图像,主要包含了光照类内因素变化;Dup-1和Dup-2这两个子集主要包含了老化类内因素变化,它们分别含有243个人的722张人脸图像和75个人的234张人脸图像。Dup-1的时间跨度为6~12个月,Dup-2的时间跨度为12~24个月。利用数据库提供的人眼坐标,将原始图像切割为128×128像素的人脸图像。剪裁后的人脸图像如图5-1所示。

图5-1 剪裁后的FERET人脸数据库,该数据库包含:光照、老化、表情和姿态等类内因素变化

(2)CAS-PEAL-R1数据库:与FERET数据库类似,该数据库也是针对人脸识别问题而设计的。该数据库中的所有人脸图像全部采集自中国人,是针对中国人人脸识别问题而专门采集的数据库。因此,利用该数据库进行算法测试是具有理论和现实意义的。

该数据库包括了1 040个人的99 594张人脸图像,常用的CAS-PEAL-R1数据库可分为训练集和测试集。其中,训练集包含有300个人的1 200张人脸图像;而常用的测试集包括:gallery、expression、accessory和lighting。其中,gallery拥有1 040个人的1 040张人脸图像,作为模板集使用,而其余三个子集被用作探测集。expression中有377个人的1 884张人脸图像,主要包含了表情类内因素变化;accessory中有438个人的2 616张人脸图像,主要包含了遮挡或人脸配件等类内因素变化;lighting中有233个人的2 450张人脸图像,主要包含了光照等类内因素变化;利用数据库提供的人眼坐标,将原始图像切割为150×130像素的人脸图像。剪裁后的人脸图像如图5-2所示。

图5-2 剪裁后的PEAL人脸数据库,该数据库包含:表情、光照、遮挡和老化等类内因素变化

(3)CMU Multi-PIE数据库:与FERET和CAS-PEAL-R1数据库类似,该数据库也是针对人脸识别问题而设计的。该数据库中的包含了大量的类内因素变化。因此,利用该数据库进行算法测试是具有理论和现实意义的。

该数据库包含有337个人的约750 000张人脸图像,包括:姿态、光照和表情等多种类内因素变化。在本书中,选取了正常表情和正面光照的姿态变化图像进行测试。姿态变化范围为[-45°,+45°]。前200个人的5 600张人脸图像用作训练集,而剩余的137个人的图像用作测试集。所有人脸图像均采用SDM算法对齐为80×64。剪裁后的人脸图像如图5-3所示。在测试集中,137个人的正面人脸图像(137张图像)用作模板集,而其余的2 706张人脸图像用作探测集。

图5-3 剪裁后的CMU Multi-PIE人脸数据库,该数据库主要包含姿态类内因素变化

(4)LFW数据库:该数据库是针对人脸验证问题(即判断一个图像对中的两张图像是否为同一个人)而设计的。LFW数据库是由麻省理工学院的计算机视觉实验室收集并发布的,这些人脸图像全部收集自互联网。这些图像全部是在非约束条件下,由专业摄像师拍摄得到的。利用该数据库对算法进行测试,有助于研究非约束条件下多重类内因素同时变化的人脸验证问题。

该数据库包含有5 749个人的13 233张人脸图片,其中1 680个人拥有超过2张的人脸图像。本书中使用来自Lior Wolf等人提供的LFW-a数据库作为原始图像,并将其剪裁成150×130。剪裁后的人脸图像如图5-4所示。该数据库提供的测试协议将数据库分为View 1和View 2两部分。其中,View 1用于算法设计和模型选择,View 2用于最终的性能测试。View 2又可分为10个子集,并采用10折交叉验证(10-fold cross validation)。10次测试的平均准确率(mean accuracy)及其标准差(standard deviation)和ROC曲线(Receiver Operating Characteristic curve,ROC)可用作最后的评测指标。(www.xing528.com)

图5-4 剪裁后的LFW人脸数据库,该数据库包含:姿态、表情和老化等类内因素变化

LFW数据库还提供了多种测试场景(testing scenarios),包括:基于非监督的(Unsupervised)、基于监督的图像对受限的(Image-Restricted)和基于监督的图像对不受限的(Unrestricted)三种。其中,基于监督测试场景又可分为:允许使用外部数据的(Outside Data)和不允许使用外部数据的(No Outside Data)。在本书中,作者主要使用的是无监督的测试场景,因为无监督的测试场景并不依赖于分类器训练或度量学习(metric learning),且不能引入有标签/无标签的外部数据,能够公平地、真实地评测一种人脸识别算法的描述能力和鲁棒性。10折交叉验证的平均AUC作为描述算法性能的指标。

(5)PaSC数据库:数据库同样是针对人脸验证问题而设计的。与LFW数据库不同,PaSC数据库(Point-and-Shoot Camera dataset)是通过数码静态相机(Point-and-Shoot Camera,又称“傻瓜”相机)拍摄得到的。由于数码静态相机的普及,社交网络中大量的图片都是由这种相机拍摄得到的。但是,这类相机的易操作性,却导致了拍摄图像的质量难以得到保障,从而加大了现有人脸识别算法的难度。因此,利用该数据库对算法进行测试,有助于研究非约束条件下多重类内因素同时变化(特别是姿态、模糊和遮挡)的人脸验证问题。

该数据库包括了293个人的9 376张静态图像和2 802段视频,并包含了:姿态、模糊、失焦和低分辨率等多种类内因素变化。其中,目标集(target set)和查询集(query set)均包含有4 688张人脸图像。利用数据库发布者提供的人脸关键点,对原始人脸图像进行基于仿射变换的分割,将其切割为128×128像素的人脸图像。剪裁后的人脸图像如图5-5所示。

图5-5 剪裁后的PaSC人脸数据库,该数据库包含:姿态、模糊、失焦和低分辨率等类内因素变化

该数据库提供了三种测试协议:图像-图像识别,视频-视频识别和图像-视频识别。本书采用的是图像-图像识别协议。图像-图像识别还提供了两种测试场景,包括:仅包含正面人脸的图像集和包含所有照片的图像集。本书使用这两个测试场景,并利用准确率作为描述算法性能的指标。

(6)IJB-A数据集:IJB-A数据集是第一个在无约束环境下采集的结合人脸检测和人脸识别的基准数据集,同时包含图片和截取的视频图像数据。元数据包含个体的性别和肤色、遮挡情况(眼睛、嘴/鼻子、刘海和前额)以及粗略姿势信息,如图5-6所示。IJB-A数据库包含500个不同姿态、光照和表情的个体,姿态变化[-90°,90°],共5 712张图片以及从视频中截取出的20 414帧图像。

(7)CASIA-Web Face数据集:CASIA-Web Face数据集包含10 575个人的49 414张图像。将使用CASIA-Web Face中1 000个人的10 000张图像作为训练数据集,其中每个人的正脸图片和姿态人脸的图像各5张。如图5-7所示,是其中一个人的正脸和姿态人脸图片集合。同样应用SDM算法进行人脸对齐并进行裁剪,图片大小80×64。

图5-6 IJB-A人脸数据集

图5-7 CASIA-WebFace人脸数据

(8)CUHK-CUFS数据集:香港中文大学脸部速写数据集(CUHK-CUFS)主要用于人脸素描合成及人脸素描识别的研究。包含CUHK Student数据集、AR数据集(照片来自AR数据集)和XM2GTS数据集(照片来自XM2VTS数据集)。如图5-8所示,CUHK Student数据集包括来自香港中文大学188个学生的188张人脸资料库的图像(训练集88张、测试集100张),AR数据集包含123个个体的123张人脸照片和素描图像(训练集80张、测试集43张),XM2GTS数据集包含295个个体的295人脸照片和素描图像(训练集195张、测试集100张)。

图5-8 CUHK-CUFS人脸数据集

(9)CUHK-CUFSF数据集:香港中文大学人脸速写FERET数据集(CUFSF)主要用于人脸素描合成和人脸素描识别的研究,如图5-9所示。该数据集中包括来自FERET数据集的1 194人的一张含有光线变化的脸部照片和一幅由艺术家在观看这张照片时绘制的形状夸张的素描。

图5-9 CUHK-CUFSF学生人脸数据集

(10)CASIA NIR-VIS 2.0数据集:CASIA NIR-VIS 2.0数据集是目前最大和最具挑战性的NIR-VIS异质人脸识别数据库,如图5-10所示。它包括725个个体,每个个体有1~22张可见光和5~50张近红外光图像,分为10个子数据集。训练集含有来自360个个体的大约2 500张可见光和6 100张近红外图像。在测试集中,gallery集中包含358个个体的可见光图像,每个个体只有一张图像,probe集包含着358个个体的6 000多张近红外图像。

图5-10 CASIA NIR-VIS 2.0人脸数据集

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈