首页 理论教育 GoogLeNet网络解析与分析

GoogLeNet网络解析与分析

时间:2023-06-30 理论教育 版权反馈
【摘要】:图9-7Inception Module的基本结构此处主要阐述基于GoogLeNet的智能录播系统中站立人脸的检测与定位。首先使用GoogLeNet网络对人脸图像进行迁移学习,训练出人脸检测网络;然后利用帧差法和肤色检测初步确定站立人脸的活动区域。通过大量实验表明,训练的GoogLeNet网络能够较好地区分人脸图像和非人脸图像,对课堂中站立学生的检测与定位功能基本可以实现。

GoogLeNet网络解析与分析

GoogLeNet神经网络谷歌团队的2014年的Image Net大型视觉识别挑战中提出的一个用于图像类别的区分和检测的网络架构,基于Hebbian原理和多尺度处理的直觉,由9个Inception Module堆叠而成,虽然深度有22层,但大小却比Alex Net和VGG小很多,GoogLeNet参数为500万个,因此在内存或计算资源有限时,GoogLe Net是比较好的选择。

Inception Module是GoogLeNet的核心组成单元,核心思想是通过多个卷积核提取图像不同尺度的信息,找出图像的最优局部稀疏结构,并将其近似地用稠密组件替代,可以实现有效的降维,从而能够在计算资源同等的情况下增加网络的宽度与深度,并减少需要训练的参数,减轻过拟合问题。而且该架构实现了在不同的维度上提取图像特征并加以整合,使特征值更丰富,使得图像更易识别。其中3×3卷积,5×5卷积前,3×3最大池化后的1×1卷积,是为了参数量的减少。Inception Module基本组成结构有四个成分:1×1卷积,3×3卷积,5×5卷积,3×3最大池化。最后对四个成分运算结果进行通道上组合。Inception Module结构如图9-7。

图9-7 Inception Module的基本结构

此处主要阐述基于GoogLeNet的智能录播系统中站立人脸的检测与定位。首先使用GoogLeNet网络对人脸图像进行迁移学习,训练出人脸检测网络;然后利用帧差法和肤色检测初步确定站立人脸的活动区域。由于视频帧数过多,帧差间隔定为5帧以保证在能检测到站立的同时减少运算量;在该区域中利用训练好的GoogLeNet网络检测是否存在人脸,若存在,则记录人脸位置;由于位置不同,站立时人脸在水平方向和垂直方向的运动距离不同,所以根据位置不同进行分区,每个区域设定不同的阈值,当记录的站立人脸的运动距离超过设定的阈值时,最终判定为站立的人脸并标记,其余的舍去,以此减少小幅度活动的干扰;最后输出视频。流程图如图9-8。

图9-8 流程图

具体算法步骤为:(www.xing528.com)

(1)导入GoogLeNet预训练网络,使用人脸图像进行迁移学习,训练出自己的人脸检测网络;

(2)读入视频文件并分帧;

(3)取帧差间隔为5的两帧图像作差,确定活动区域,在该区域进行肤色检测,筛选出人脸候选区域;

(4)在人脸候选区域使用训练好的网络进行人脸检测,若存在人脸,则记录人脸位置;

(5)由于学生座位不同,站立时在水平方向和垂直方向的运动距离不同,所以对教室进行分区,在每个分区中判断人脸的运动距离是否超过设定的阈值;若超过阈值,则判定为学生站立,标记人脸位置并保存;若没有超过阈值,则舍去,以减少学生小幅度运动产生的干扰;

(6)循环执行3~5,直至视频结束;

(7)输出视频。

这一方法仅对存在肤色的活动区域进行人脸检测,减少了计算量,提高了算法运行效率。通过大量实验表明,训练的GoogLeNet网络能够较好地区分人脸图像和非人脸图像,对课堂中站立学生的检测与定位功能基本可以实现。由于实际教室与课堂的复杂性与多样性,也存在一些误检与漏检的情况,在接下来的工作中还需要不断改进与完善,尽可能地减少误检、漏检的情况,尤其是非站立的运动人脸,提高检测准确率。[5]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈