现有多目标跟踪量测生成算法采用了多阶段的量测生成流程,忽略了空间上下文信息,影响了表观相似场景下量测特征的区分度。因此,本节提出了基于多任务模型的量测生成方法,从而将现有的多阶段方法转为单阶段方法以充分融合空间上下文信息。多任务模型设计如图3-23所示。
图3-23 多任务模型结构
本节所提的量测生成方法采用的多任务模型包含了两路分支,分别用于优化目标检测任务与特征提取任务。具体地,完整图像被输入到主干网络输出了特征图,特征图被分别送至目标检测分支与特征提取分支,其中目标检测分支输出检测响应(包括目标的边界框与类别概率)并计算得到检测分类损失与检测定位损失,同时特征提取分支提取量测特征并计算得到特征提取损失,最后利用基于不确定性的加权方法结合两个分支中的三个损失函数。在这种模型设计中,两个任务都是基于完整图像进行的,隐式地编码了目标的空间上下文信息,缓解了现有多阶段量测生成方法的不足。
基于多任务模型的量测生成方法采用多任务模型直接在完整空间位置V1∶t上进行搜索,即实现了公式(3-12)、公式(3-13)的转换。
对于每一个输入帧t,目标检测分支的输出为检测响应Zt,包括检测框坐标pt与置信度ct,特征提取分支的输出为量测特征Et。接下来将分别从目标检测分支、特征提取分支以及分支之间损失函数的结合方法角度描述所提方法如何融合空间上下文实现区分性量测特征的提取。
1.目标检测分支
多任务模型中的目标检测分支用于实现目标检测任务,该任务在视频帧序列中确定感兴趣目标的检测框坐标pt并对目标进行分类(检测置信度ct),输出为检测响应Zt={pt,ct}。对于存在表观相似目标的场景,如图3-24所示,实线框A标识检测框,虚线框B标识目标真值框,由于目标周围出现了外观非常相似的目标,导致检测框A与真值框B出现了空间位置上的漂移,因此需要损失函数反馈出这种空间位置上的偏差。
图3-24 表观相似场景下的检测框偏移现象与定位损失函数DIo U计算示意图
d(A,B)表示检测框A和真值框B的中心点距离,lC表示C的对角线长度
目标检测分支的损失函数包括目标分类损失函数Lclassification以及目标定位损失函数Llocation,表示为公式(3-14)。
本节仅关注行人这单一类目标,因此采用交叉熵(Cross Entropy)损失函数作为检测分类损失函数,如公式(3-15)所示,y表示真值标签。
对于检测定位损失函数,常用基于回归思想的均方误差损失、平均绝对值损失或是经过平滑处理的Smooth L1损失,但是上述损失函数优化目标都是使得检测框坐标从数值上与真值框坐标更为接近,却未能充分反映出检测框与真值框之间的空间位置关系,也与基于Io U的评价指标并不完全对等。因此考虑从优化Io U的角度设计损失函数,但是仅基于Io U的损失函数在两个框无重叠或者完全包含时无法优化,而DIo U损失函数能够克服以上问题,充分描述检测框与真值框的空间位置偏差,因此本节以DIo U损失函数计算检测定位损失。
DIo U的计算公式如公式(3-16)、公式(3-17)所示,其中,C是包含A、B的最小封闭形状,pgt(·)表示真值框的坐标,d(pt(A),pgt(B))用于度量检测框A和真值框B之间的距离。相对于C的对角线长度lC进行归一化,缓解框尺度不同带来的影响。
(www.xing528.com)
由以上定义过程可见,定位损失函数在优化的过程中充分考虑了检测框与真值框的在空间位置上的重叠程度Io U,并引入了中心点距离保证两个框无重叠或完全包含时仍能优化。该损失函数能更好地学习目标之间的空间位置关系,也与实际评价指标更为一致,从而加强了训练过程中对目标空间上下文的学习,获得更准确的定位效果。
2.特征提取分支
特征提取分支主要是用于建模目标的空间表观上下文,提高特征向量的区分性。分支的输出是目标在当前尺度特征图上的特征向量集合Et,特征向量Et与检测响应Zt一一对应。随着检测框在特征图上的移动,框内部的图像内容也在不断调整,通过损失函数约束可以更好地学习目标的空间表观上下文。如图3-25所示,特征提取模型在原始输入图像中得到了多个可能的检测候选框,包括:正确的检测框(用黄色框标识)以及包含了背景或包含了相似表观目标的检测候选框(用蓝色框标识),这些候选框表征了目标的空间上下文,分类器则用于将正确的目标与其他上下文对应的检测候选框区分开,模型训练时根据分类结果计算对应的损失值。为了提高不同目标表观特征向量的区分性,分支损失函数的设计旨在减小特征向量与类中心权重向量的角度距离,增加特征向量的类内紧凑性,从而拉大不同目标特征向量间的区分性。本节采用加性角间隔损失函数(Additive Angular Margin Loss)作为特征提取损失函数。
图3-25 空间上下文示意图
本节将特征提取视为分类任务,根据每个检测框内的空间表观信息提取特征向量et,et被输入至分类器区分该检测框对应的目标ID,在模型训练时根据分类结果计算对应的损失值。对于包含目标的检测框i,yi是检测框i内目标的标签,ei∈R d是检测框对应的特征向量,Wk是分类器的权重W∈R d×n的第k列,表示类中心向量,bk是偏移项,ei经过分类器得到的未归一化的激活输出(logit)表示为ak,且有ak=W Tk xi,在欧式空间中有ak=‖Wk‖‖ei‖cos(θk)+bk,θk表示类中心向量Wk与特征向量ei的夹角,‖·‖表示取范数,本节利用L2范数对类中心向量与特征向量进行长度归一化,使得模型专注于角度差异的学习。归一化后特征分布在单位球面上,并增加比例系数s用于缓解不收敛问题,在实际训练过程中将s固定为足够大的值,本节设为30。最终得到特征ei与类中心向量Wyi之间的角度距离作为特征提取损失Lfeature,最终的特征损失函数如下:
式中,N是当前批次(batch)中样本数量,i的取值范围是C,C是类别的数量,m为特征向量与类中心向量之间的角度间隔惩罚,用于进一步约束相同类别检测框提取的特征能尽量接近类中心向量,从而提高同一个目标特征向量的类内紧凑性,如图3-26所示。
由以上推导可以看出,特征提取损失函数的定义紧紧围绕着特征向量的区分性展开,图3-26对比了改进后的损失函数与原始损失函数约束下的样本特征分布。可以看出,原始的Softmax函数能够将样本区分开,但是不同类别之间的样本没有强制的角度与距离约束,同一类样本的距离也比较松散。而特征提取损失函数显式地约束了类内、类间的角度距离,能够减少类内间距并拉大类间间距,从而提升了量测特征的区分性。
(a)Softmax损失函数,(b)ArcFace损失函数,不同点分别表示不同类别样本对应的特征向量
3.多任务融合
本节使用多任务学习中的基于不确定性的多损失融合方法,加权融合目标检测、量测特征提取分支的三个损失函数,最终的损失函数用公式(3-19)表示。
式中,σi表示损失函数i的观测噪声参数,即估计了该任务输出有多少噪声,从而使得训练过程同时对模型参数和观测噪声参数σi进行拟合,该方法可以通过训练自动平衡多任务损失的相对权重,简化了调参过程。
综上所述,基于多任务模型的量测生成算法,充分融合空间上下文信息,增强了量测特征区分性:(1)采用了多任务模型将目标检测任务与量测特征提取任务作为两个并行的任务在全图像(而非经过裁剪的检测响应)学习,避免了多阶段方法忽略空间上下文的问题;(2)在多任务模型的不同分支设计损失函数进行约束与学习,改进后的定位损失函数引导模型在训练过程充分学习空间位置信息,特征提取损失函数则显式约束了特征向量角度距离,有利于提升量测特征的区分性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。