由于参数量和计算资源的限制,同时视频时域范围的大小具有不确定性,训练中首先将视频转换为图像序列,保证时序的前提下从中多次抽取固定帧数的视频片段,作为识别模型的单次输入。此方式虽然保证了输入视频的时序稳定,但是由于视频中存在大量的相似冗余帧,导致部分的视频片段难以包含动作的关键信息。识别中真正对识别效果起关键判别作用的帧可能处在视频的不同时域位置,即关键时域。因此,当从视频片段中抽取关键帧时,需要根据视频帧对于整体视频判别的重要程度来抽取,尽可能抽取对识别关键性更高的视频帧作为输入,即在时域引入注意力机制,使得后续的特征提取和辨别模型获取更为显著的关键信息。在时域输入特征的基础上,本节提出基于时序梯度分析的快速关键帧选取算法,如图4-7所示。
图4-7 基于时序梯度分析的快速关键帧选取算法框架
关键帧的标准为:帧间运动目标区域相较于历史帧有较大变化的视频帧,在时域引入快速注意力机制,来获取视频全局时域范围的关键帧排序索引。由于当前行为识别的深度框架在输入阶段和识别阶段的时间消耗都较大,因此本节算法旨在探索时间损耗较低的时域注意力机制来选取关键帧。
关键帧选取框架分为输入特征层、池化层和历史梯度层。原始的视频序列(F1,F2,F3,…,Fm),其中Fm∈R w×h表示输入的视频帧图像,w×h为视频帧图像的空间尺寸,m为视频帧序列的总帧数。输入特征层采用第3章的时域输入特征处理方法Subs,得到的时域输入特征(B1,B2,B3,…,Bm),Bm∈R w×h,去除了部分背景干扰,保留运动目标区域。当相邻帧间变化较为剧烈时,输入特征的运动相关区域相应地也有较大的面积变化。在此基础上,利用全局均值池化AVGpooling可以将视频帧序列上运动区域的面积映射为一个响应值(P1,P2,P3,…,Pm),以此粗粒度地度量每个视频帧的运动区域大小。对于每一帧生成的响应值进行历史梯度连接,获取当前帧相对于前向时域响应值的梯度差(G1,G2,G3,…,Gm),称之为时域梯度值。计算时域梯度值时,考虑时域运动变化的两种情况:(1)动作在一段时间内帧间变化较慢,但持续时间较长。体现在池化响应值上为缓慢上升或下降趋势,两帧间差异较小,但是当时域扩大时,变化的累积较大。(2)动作在极短的时间内变化较大,即相邻两帧间的池化响应值差异较大。因此计算时域梯度值时,计算与前向时域片段内ρ帧池化相应值的差值(ρ<m),选取最大梯度值作为该帧的时域梯度值(前向时域内不够ρ帧的,计算其前向时域内所有对应的梯度值并选取最大值)。最后,算法将整个视频时域内所有视频帧对应的时域梯度值从大到小排序后得到响应值序列为(Gk1,Gk2,Gk3,…,Gkm),其中Gkm-1≥Gkm。最后获得对应视频的索引(k1,k2,k3,…,km),由此基于该算法筛选出与前向时域变化最大的前q个(q<m)关键帧(Fk1,Fk2,Fk3,…,Fkq),如表4-2所示。
表4-2 基于背景剪除的关键帧挑选策略流程
(www.xing528.com)
视频关键片段生成
基于时序梯度分析的快速关键帧选取算法,从原始行为视频中获取对应的关键帧索引,以此进一步生成训练和测试过程中使用的视频关键片段,并构建并行的关键识别分支。算法获取的关键帧索引离散地位于视频时域的不同时间点。基于这些关键帧生成关键片段时,考虑不同时域的输入尺度,即不同粒度的输入特征。结合局部时域和全局时域两种尺度生成关键片段,以充分利用所选关键帧的信息,即分段式和汇总式,如图4-8所示。
图4-8 分段式和汇总式关键视频片段生成框架图
分段式为:针对生成的每一个关键帧时域节点,分别以关键帧所在的时间点为中心,截取该时间点前后连续的N个视频图像帧(根据网络输入片段输入长度决定为16/64),即每个关键帧对应生成一个关键片段用于融合训练。由于在常规的训练中,训练的视频片段是随机生成的,而分段式关键片段可以直接将包含关键帧的片段,强化关键时域部分对网络的训练调整。汇总式为:将索引排序靠前的N个关键帧直接按照实际各视频帧的真实时序关系,生成一个单独的关键帧片段,即将全局时域范围内的关键帧合并为一个汇总式片段。具体算法如图4-8所示,从排序前2N个关键帧内,随机抽取N个关键帧组成汇总式关键片段用于训练,以此强化对于全局时域信息的输入。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。