MTCNN人脸检测成果

时间：2023-11-18 理论教育版权反馈

【摘要】：MTCNN是Multi-Task Convolutional Neural Net-work的简称，由中国科学院深圳研究所在2016年提出，它可以同时完成图像中人脸定位及人脸关键点标定这两个任务，所以称为多任务卷积神经网络。MTCNN将经过金字塔变换后的人脸图像首先送入了P-Net之中。图8-15P-Net网络结构R-Net即Refining Network，其作用是对P-Net初步确定包含人脸的图像进行进一步的精选。MTCNN兼顾了性能和准确率，避免了传统的滑动窗口加分类器的低效做法。下面是整个MTCNN的工作流程。

MTCNN人脸检测成果

MTCNN是（多任务卷积神经网络）Multi-Task Convolutional Neural Net-work的简称，由中国科学院深圳研究所在2016年提出，它可以同时完成图像中人脸定位及人脸关键点标定这两个任务，所以称为多任务卷积神经网络。

为了支持多种尺寸的人脸，MTCNN借鉴了图像金字塔的思想，对图像进行了不同尺度的变换。MTCNN中变换因子为0.709，即如果原图宽度为w，那么经过一次变换后宽度为0.709×w，之所以不用0.5这个图像金字塔常用的比例，主要原因在于能够增加候选图像数量，提高人脸定位精度。

MTCNN网络框架借鉴了Cascade的思想，由P-Net、R-Net和O-Net三个子网络构成。MTCNN将经过金字塔变换后的人脸图像首先送入了P-Net之中。P-Net即Proposal Network，是一个典型的全卷积神经网络（FCNN）。网络同时输出是否有人脸（face classification），人脸的边界框（bounding box regression），人脸关键点位置（Facial landmark localization）。P-Net能够对特征进行初步提取并粗略标定人脸边界（图8-15）。

图8-15　P-Net网络结构

R-Net即Refining Network，其作用是对P-Net初步确定包含人脸的图像进行进一步的精选。该网络可以对人脸的区域窗口和是否存在人脸进行进一步筛选。之所以在这里加入R-Net是因为P-Net借鉴FCNN中的边框回归方法快速定位了人脸的位置，避免了低效的滑动窗口算法。但这样定位的人脸不够精确，所以需要使用R-Net进行进一步定位。通过R-Net的结构图可以看出，这就是一个结构非常简单的CNN网络（图8-16）。

图8-16　R-Net网络结构(www.xing528.com)

O-Net为Output Network，与R-Net类似，其结构为一个卷积神经网络。O-Net与R-Net的区别在于这一层会通过更多的监督来识别人脸的区域，因为这个网络经过R-Net的筛选后，绝大多数图像都包含人脸图像，所以最后的O-Net主要用来优化边框和特征点，最终输出精确的人脸边框和五个人脸特征点，每个点包含横纵坐标，所以人脸特征点共10个输出（图8-17）。

MTCNN兼顾了性能和准确率，避免了传统的滑动窗口加分类器的低效做法。通过将定位过程分成三个独立的神经网络提升了训练效率。下面是整个MTCNN的工作流程（图8-18）。

图8-17　O-Net网络结构

图8-18　MTCNN工作流程

可以看到，图像金字塔操作可以获得很多不同尺寸的图片作为P-Net的输入，P-Net获得了大量的候选边界区域，R-Net去掉了大部分的干扰项得到了确定的边框，但大小仍不合适。O-Net最终优化了边框，给出了特征点位置。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

经济发展

建筑工程

传统文化

民事诉讼

中国传统

程序设计

解决方法

轨道交通

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

MTCNN人脸检测成果

相关推荐

MTCNN人脸检测成果

有关深度学习与深度合成的文章

相关推荐