首页 理论教育 自适应预测的单目标跟踪算法在多源视觉信息感知与识别中的应用

自适应预测的单目标跟踪算法在多源视觉信息感知与识别中的应用

时间:2023-11-19 理论教育 版权反馈
【摘要】:基于LSTM的目标检测与跟踪算法,充分利用了循环神经网络的时序关联性,同时缩小了搜索范围,减小了对检测器性能的依赖性。图3-12ShuffleNet网络结构的组成模块示意图3.基于自适应检测的跟踪算法在相关滤波的跟踪算法中,用视频第一帧中目标初始位置的块来训练相关滤波器,通常这个块要比目标区域大一些,以便提供有助于跟踪算法性能的背景信息,在上一章设计的跟踪算法基础上,提出了一种自适应的检测机制。

自适应预测的单目标跟踪算法在多源视觉信息感知与识别中的应用

基于LSTM的目标检测与跟踪算法,充分利用了循环神经网络的时序关联性,同时缩小了搜索范围,减小了对检测器性能的依赖性。本节将提升目标检测模块的检测速度,同时将基于相关滤波的跟踪算法结合到上一节提出的跟踪算法中,介绍一种自适应检测机制,实现了不逐帧检测,提升目标物体被遮挡场景下的鲁棒性的同时进一步加快跟踪速度。

1.自适应检测机制

现有的单目标跟踪算法中,基于相关滤波的跟踪算法由于可以将复杂的矩阵运算转化为向量的Hadamad积,使其具备超实时的跟踪速度,同时当目标物体被严重遮挡时,利用KCF算法的在线更新机制,在历史模板抽取一帧视频图像帮助确定被遮挡的目标下一帧所在的位置,以便继续对其进行跟踪,使得对目标被严重遮挡的场景更加鲁棒。因此本节将基于相关滤波的跟踪算法与上一节设计的跟踪算法结合,提出了一种自适应的检测机制,用感兴趣区域初始化相关滤波器,设定一个阈值,如果训练得到的相关滤波器预测得到的边界框与真实的边界框的Io U大于所设定的阈值,则不进行检测;如果预测得到的边界框与真实的边界框的Io U小于所设定的阈值,则在感兴趣区域内进行检测,这样实现了不逐帧检测,在提高目标物体被严重遮挡场景下跟踪精度的同时,进一步提升本节目标检测与跟踪系统的速度,自适应检测模块的流程示意图如图3-9所示。

自适应检测模块由感兴趣区域确定模块、相关滤波模块以及目标检测模块三部分组成。原始的基于相关滤波的跟踪算法使用视频序列第一帧中目标所在位置的块初始化相关滤波器,从而进行模型训练,然后对于每一个后续视频帧,将预测的位置更新到响应峰值的位置,在新的位置上训练一个新的相关滤波器。然而,当目标物体发生形变或者快速运动时,更新的模板会出现误差,随着目标物体不断的运动,误差累积,最终导致基于相关滤波的跟踪器产生跟踪漂移,对目标物体的跟踪失败,如图3-10所示。因此本节的相关滤波模块增加了模板校正的过程,即每帧用于训练相关滤波器的块不是上一帧特征图响应峰值的位置,而是用上一帧预测的目标位置坐标预测下一帧目标大致的运动方向,然后在这个运动方向上确定感兴趣区域来训练这一帧的相关滤波器,这样目标物体先前帧的运动状态信息会帮助校正跟踪漂移,进而提升跟踪器的跟踪效果,如图3-11所示。

图3-9 自适应检测模块的流程示意图

图3-10 原始的KCF算法跟踪失败示意图

图3-11 模板校正后的KCF算法跟踪成功示意图

另外,结合了相关滤波的跟踪算法对目标物体被遮挡的场景更加鲁棒。视频序列初始帧输入到网络中,经过方向预测模块确定目标的感兴趣区域,然后将这个感兴趣区域作为目标区域,对这个目标区域进行相同的循环移位操作,产生新的训练样本。对于目标物体被遮挡的情况,如果目标被遮挡的部分不超过整个目标大小的20%,采用当前帧去检测下一帧,通过在线更新机制对模型参数进行更新,在线更新模型为

式中,α是系数组成的向量,β是一个固定的常量,αpre是前一帧训练得到的,αx是当前帧训练得到的,然后将当前帧回传到方向预测模型中,完成整个跟踪系统的流程。如果目标物体被严重遮挡时,选择放弃当前帧,在历史模板中对视频图像进行采样,用采样到的帧去更新模型参数进行下一帧目标位置的预测,然后将采样得到的帧回传到方向预测模型,完成整个跟踪系统,流程如图3-10所示。

2.基于ShuffleNet的目标检测模块(www.xing528.com)

通过对模型压缩方法的研究,对各种模型压缩方法的性能进行了总结,如表3-1所示。由表3-1可以看出,不同的模型压缩算法在相同的复杂度(140MFLOPs)的情况下,分类误差有所不同。其中Shuffle Net的分类误差最小,因此选择ShuffleNet作为本节使用的模型压缩方法。

表3-1 不同模型压缩算法在相同复杂度的情况下的分类误差表

上一节中使用的SSD检测模块的骨干网络是VGGNet,这个深度神经网络参数量大,并且层与层之间的信息存在大量冗余,使得耗费计算资源的同时,阻碍了速度的提升。因此,本节考虑将检测模块的骨干网络从VGGNet换为模型压缩的ShuffleNet,从而提高目标检测模块的检测速度。

图3-12展示了ShuffleNet网络结构的组成模块。首先对输入特征图进行分组卷积,然后为了进行通道之间的信息流通,在分组卷积后使用channel shuffle;接下来,使用3×3的depthwise convolution,主要是为了降低参数量;同时当stride=2时,通道数增加,而特征图大小减小,此时输入与输出维度不匹配,一般情况下可以采用一个1×1卷积将输入映射成和输出一样的维度,但是在Shuffle Net中,却采用了不一样的策略,对原输入采用stride=2的3×3均值池化,这样得到和输出一样大小的特征图,然后将得到特征图与输出进行连接,而不是简单的相加,这样做的目的主要是降低计算量与参数大小。

将检测模块的骨干网络换成ShuffleNet,即将原来的标准卷积+池化换成图3-12所示的模块。另外SSDShuffleNet也是全卷积网络,在ShuffleNet的网络结构后面新增了四个卷积层,同时利用浅层特征和深层特征进行分类和回归,即原来的conv4_3、conv7(fc7)、conv6_2、conv7_2、conv8_2和conv9_2六个卷积层由conv12、conv14_2、conv15_2、conv16_2、conv17_和conv18_2六个特征层代替,如图3-13所示。

图3-12 ShuffleNet网络结构的组成模块示意图

3.基于自适应检测的跟踪算法

在相关滤波的跟踪算法中,用视频第一帧中目标初始位置的块来训练相关滤波器,通常这个块要比目标区域大一些,以便提供有助于跟踪算法性能的背景信息,在上一章设计的跟踪算法基础上,提出了一种自适应的检测机制。不在确定的感兴趣区域内直接进行检测,而是用感兴趣区域初始化相关滤波器,设定一个阈值,如果训练得到的相关滤波器预测得到的边界框与真实的边界框的Io U大于所设定的阈值,则认为跟踪成功,将相关滤波器预测的边界框结果回传到运动方向预测模型,完成整个跟踪系统;如果预测的边界框与真实边界框的Io U小于设定的阈值,则在确定的感兴趣区域内进行检测,将检测得到的预测结果回传到运动方向预测模型,完成整个目标检测与跟踪系统,这样可以实现不逐帧检测。本节设计的基于自适应检测的单目标跟踪系统流程示意图如图3-14所示。

图3-14 基于自适应检测的目标跟踪系统流程示意图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈