首页 理论教育 MTCNN人脸检测成果

MTCNN人脸检测成果

时间:2023-11-18 理论教育 版权反馈
【摘要】:MTCNN是Multi-Task Convolutional Neural Net-work的简称,由中国科学院深圳研究所在2016年提出,它可以同时完成图像中人脸定位及人脸关键点标定这两个任务,所以称为多任务卷积神经网络。MTCNN将经过金字塔变换后的人脸图像首先送入了P-Net之中。图8-15P-Net网络结构R-Net即Refining Network,其作用是对P-Net初步确定包含人脸的图像进行进一步的精选。MTCNN兼顾了性能和准确率,避免了传统的滑动窗口加分类器的低效做法。下面是整个MTCNN的工作流程。

MTCNN人脸检测成果

MTCNN是(多任务卷积神经网络)Multi-Task Convolutional Neural Net-work的简称,由中国科学院深圳研究所在2016年提出,它可以同时完成图像中人脸定位及人脸关键点标定这两个任务,所以称为多任务卷积神经网络。

为了支持多种尺寸的人脸,MTCNN借鉴了图像金字塔的思想,对图像进行了不同尺度的变换。MTCNN中变换因子为0.709,即如果原图宽度为w,那么经过一次变换后宽度为0.709×w,之所以不用0.5这个图像金字塔常用的比例,主要原因在于能够增加候选图像数量,提高人脸定位精度

MTCNN网络框架借鉴了Cascade的思想,由P-Net、R-Net和O-Net三个子网络构成。MTCNN将经过金字塔变换后的人脸图像首先送入了P-Net之中。P-Net即Proposal Network,是一个典型的全卷积神经网络(FCNN)。网络同时输出是否有人脸(face classification),人脸的边界框(bounding box regression),人脸关键点位置(Facial landmark localization)。P-Net能够对特征进行初步提取并粗略标定人脸边界(图8-15)。

图8-15 P-Net网络结构

R-Net即Refining Network,其作用是对P-Net初步确定包含人脸的图像进行进一步的精选。该网络可以对人脸的区域窗口和是否存在人脸进行进一步筛选。之所以在这里加入R-Net是因为P-Net借鉴FCNN中的边框回归方法快速定位了人脸的位置,避免了低效的滑动窗口算法。但这样定位的人脸不够精确,所以需要使用R-Net进行进一步定位。通过R-Net的结构图可以看出,这就是一个结构非常简单的CNN网络(图8-16)。

图8-16 R-Net网络结构(www.xing528.com)

O-Net为Output Network,与R-Net类似,其结构为一个卷积神经网络。O-Net与R-Net的区别在于这一层会通过更多的监督来识别人脸的区域,因为这个网络经过R-Net的筛选后,绝大多数图像都包含人脸图像,所以最后的O-Net主要用来优化边框和特征点,最终输出精确的人脸边框和五个人脸特征点,每个点包含横纵坐标,所以人脸特征点共10个输出(图8-17)。

MTCNN兼顾了性能和准确率,避免了传统的滑动窗口加分类器的低效做法。通过将定位过程分成三个独立的神经网络提升了训练效率。下面是整个MTCNN的工作流程(图8-18)。

图8-17 O-Net网络结构

图8-18 MTCNN工作流程

可以看到,图像金字塔操作可以获得很多不同尺寸的图片作为P-Net的输入,P-Net获得了大量的候选边界区域,R-Net去掉了大部分的干扰项得到了确定的边框,但大小仍不合适。O-Net最终优化了边框,给出了特征点位置。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈