在得到每个视频块的二值特征向量后,重点介绍如何基于已有的字典学习方法和池化方法得到整个RGB或者深度视频的时空纹理特征描述子,即3D-CLBP和3D-CLDP描述子。同时基于以上两种不同模态特征描述子以及不同的融合策略实现最终的行为分类。
1.时空纹理特征表达
对于每一个视频块的二值特征bn,依据LBP编码的等价模式可以将bn转化成长度为l=K(K-1)+2的局部二值特征描述符pn。在获得每个视频块的描述符pn后,采用字典编码和池化方法,将某个时间段内所有视频块slicet={V*,*,t}的描述符串联形成该时刻视频片段的特征描述。为了避免K-means聚类算法对局部特征会产生较大的误差问题,采用稀疏编码算法和VLAD编码将视频块的局部二值描述符转化为结构化特征表达。而对于N个局部二值描述符P=(p1,…,pN)∈R L×N,稀疏编码过程可以通过以下公式进行求解:
式中,C=(c1,c2,…,cK1)∈R L×K1表示K1个学习到的字典,这里每个字典的原子ck都可由长度为L维的列矢量表示;qn∈R K1×1为第n个二值描述符pn在所有字典上的稀疏编码系数。λ为局部稀疏约束的平衡参数。在得到二值描述符pn在第k个字典上的稀疏系数qnk后,按照VLAD编码方式可得该二值特征描述符的稀疏表达为qnk(pn-ck)。值得注意的是,这里的字典原子ck是表示离pn最近的原子。同时为了获得对于空间尺度鲁棒的特征表达,采用空间金字塔方法得到每个视频片段的多尺度特征表达。具体地,在3个金字塔水平上将整个视频片段划分成若干个空间网格{STs},然后在每个空间网格内对所有视频块的特征表达进行平均池化如公式(4-35)。
式中,|STs|表示该空间网格所包含的视频块数量,Vn表示划分后第n个视频块,ckn和qnkn分别表示离视频块特征表达pn最近的字典原子和对应的稀疏表达系数。最后每个空间网格STs和视频片段slicet的特征表达为公式(4-36)和公式(4-37)。
在公式(4-37)中,当金字塔的水平为3时,{STs}中的空间网格数量S=1+4+16。需要说明的是公式(4-37)中的特征表达只是视频中部分片段上的特征表达,并不能代表整个视频的内容表达。为了能够获得整个视频有效的特征表达,在获得所有视频片段的特征表达{vt}后,通过Rank pooling方法获得整个视频的有效特征表达u*=(u1,…,uL),L=l×K1×S,即视频的3D-CLBP或3D-CLDP特征描述子。(www.xing528.com)
2.RGB-D行为识别
对于行为分类,采用SVM分类器实现行为的识别。SVM分类器是一种比较简单和有效的分类器,由于获得的视频特征表达具有较大的稀疏性,采用广泛使用的线性核,并使用LIBLINEAR工具作为线性SVM的求解方法。为了验证RGB和深度信息的融合对于行为识别的性能提升,采用两种不同的融合策略实现两种模态的数据融合:特征融合和决策融合。特征融合简单地将降维后的3D-CLBP和3D-CLDP特征描述子进行拼接,然后输入到线性SVM分类器。与直接的特征融合不同,决策融合分别将降维后的3D-CLBP和3DCLDP描述子输入到线性SVM分类器,然后将两个单独SVM分类器生成的一致性评分结果进行合并。具体地,假定两个分类器输出中第k个类别标签的置信分数为fq(x)k,q=1,2,则相应的后验概率可以表示成公式(4-38)。
当获得每个分类器对第k个类别的预测概率pq(yk|x)后,选择使用加权求和的方式对两个分类器的预测结果进行融合如下:
式中,αq为每个分类器的加权权重。最后通过对所有类别融合结果取最大值得到最终的分类标签y*如公式(4-40)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。