首页 理论教育 基于K-Means的先验框选取方法

基于K-Means的先验框选取方法

时间:2023-11-23 理论教育 版权反馈
【摘要】:MDSSD 网络同样使用先验框机制进行人脸区域检测,并对候选区域进行分类和框回归,因此,先验框的设计会在很大程度上影响模型检测效果。设计先验框时,首先要考虑的因素是有效感受野。MDSSD 算法使用K-Means 对Ground Truth 框进行聚类分析,以寻找最佳的先验框数量、大小和比例。由于MDSSD 使用多个检测层,且在每个检测层单独设置先验框大小和比例,因此,该模型通过肘方法确定最佳的簇数,即当k =17 时,损失函数下降缓慢且趋于平稳。表6-1MDSSD 检测层参数配置

基于K-Means的先验框选取方法

MDSSD 网络同样使用先验框机制进行人脸区域检测,并对候选区域进行分类和框回归,因此,先验框的设计会在很大程度上影响模型检测效果。设计先验框时,首先要考虑的因素是有效感受野。所谓感受野,即网络内部的不同位置的神经元对原图像的感受范围的大小。卷积神经网络中层与层之间均为局部相连,这使得神经元无法对原始图像的所有信息进行感知,因为感受野越大,其所获取的全局信息越多,该特征图所包含的全局的、高级的语义特征就越丰富;感受野越小,该特征图所包含的特征越低级,即其所包含的信息更多的是局部和纹理等细节。但卷积神经网络中神经元的有效感受野实际上远小于理论感受野,且服从高斯分布,这使得有效感受野难以计算。同时,先验框需要与 Ground Truth 框进行匹配以划分正负样本,因为先验框大小、比例与真实Ground Truth 框的差距越大,计算交并比的误差就越大,而增加无效先验框只会带来负样本数的增加,进一步加重样本不平衡的情况。

MDSSD 算法使用K-Means 对Ground Truth 框进行聚类分析,以寻找最佳的先验框数量、大小和比例。若使用标准的欧氏距离作为度量距离,会使较大的先验框主导损失函数,从而影响聚类效果,因此,本章使用自定义IOU 距离作为度量距离来进行聚类分析。IOU 距离用公式(6-1)计算:

聚类的损失是Ground Truth 与簇中心的IOU 距离,该距离越小,IOU值越大。具体来说,首先指定簇数 k,并随机初始化簇中心(Wi, Hi),i∈{1,2,… , k},其中 Wi,Hi分别表示簇中心的长和宽;然后将簇中心与Ground Truth 中心置于坐标原点,并计算每个Ground Truth 与簇的IOU距离,同时将该 Ground Truth 分配给 IOU 距离最小的簇;当所有的Ground Truth 框分配完毕后,重新计算簇中心,并不断更新直至簇中心不再改变,此时将簇中心的中位数作为最终的先验框大小和比例。由于MDSSD 使用多个检测层,且在每个检测层单独设置先验框大小和比例,因此,该模型通过肘方法确定最佳的簇数,即当k =17 时,损失函数下降缓慢且趋于平稳。综合考虑各个检测层设置,确定最佳聚类簇数为17,其Elbow 如图6-4 所示,聚类的可视化输出如图6-5,多数簇的轮廓系数接近于0.5,聚类较合理。

图6-4 聚类Elbow 图(www.xing528.com)

图6-5 聚类结果可视化图

通过对标注图像聚类可以发现,所有的簇中心都有四种不同比例,分别为{0.55,0.65,0.75,1}。当输入为 300×300 的人脸图像时,人脸姿势和模型数据增强会导致不同尺度的人脸对应不同比例的 Ground Truth 框,小尺度人脸比例接近于{0.65,0.75,1},而大尺度人脸比例接近{0.55,0.65,1}。通过计算每个簇中心Ground Truth 的尺度可以确定每个检测层的数量,同时根据每个检测层的感受野大小将17 个先验框分配至7 个不同的检测层,具体检测层设置如表6-1 所示。

表6-1 MDSSD 检测层参数配置

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈