【摘要】:当前典型的输入特征为光流图序列,然而光流图的提取需要耗费大量时间,导致视频预处理阶段的时间损耗过大,直接影响了行为识别算法的实际应用部署。对于输入包含行为的视频而言,在转换为图像序列时往往存在大量包含相似信息的冗余帧,而真正决定识别性能的输入则是视频中相对少数的关键帧。
针对行为视频的特征提取和长时行为的高效识别,当前视频行为识别算法面临诸多层面的挑战,包括视频输入特征的处理方法、关键片段的选取和时空特征的提取等。相关难点分析如下。
(1)输入特征处理。行为视频在输入到识别网络前,会将原始的RGB-D图像序列进行预处理得到输入特征。当前典型的输入特征为光流图序列,然而光流图的提取需要耗费大量时间,导致视频预处理阶段的时间损耗过大,直接影响了行为识别算法的实际应用部署。因此,需要探索时间损耗更低的时域输入特征方法代替光流图,同时也能显性地突出行为的运动特征。另外,由于一般视频的时间范围超过识别网络的输入上限,所以实际识别中需要将视频拆成片段进行分段识别,这导致了相对于整个视频而言,识别网络的输入视野受限,难以直接获得整个视频范围内的信息输入网络,由此需要进一步探索结合视频级全局信息的输入形式,从输入层面优化对动作时域的覆盖。因此,探索高效的视频输入特征处理方法,同时优化全局时域的信息聚合,成为行为视频输入处理的一大难点。(www.xing528.com)
(2)关键片段的选取。对于输入包含行为的视频而言,在转换为图像序列时往往存在大量包含相似信息的冗余帧,而真正决定识别性能的输入则是视频中相对少数的关键帧。同时由于动作时间跨度的不确定性和网络输入的限制,动作识别框架需要在输入方面进一步优化来适应不同时间跨度的动作输入。目前的训练方法普遍是从视频中随机抽取一个时间连续的视频片段,或者人为地对视频进行分段后作为片段输入,这些方法都没有效地挖掘和利用关键帧信息。因此,如何高效地从视频序列中选取决定识别性能的关键片段,是行为视频输入处理的又一难点。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。