首页 理论教育 基于双流Siamese网络的RGB-D行为识别

基于双流Siamese网络的RGB-D行为识别

时间:2023-11-19 理论教育 版权反馈
【摘要】:在单一的RGB或深度模态图像下的人体行为识别研究中,常常会有多重类内变化因素同时出现的情况。因此,本节采用深度学习及Siamese CNN模型对RGB-D人体行为识别过程中的高层特征进行语义相似度度量,以解决行为的类内差异和类间重叠问题。本节介绍基于协同训练的双流Siamese卷积神经网络的RGB-D人体行为识别算法。针对Siamese网络和对比损失函数需要构造大量的训练样本对问题,介绍一种改进的中心对比损失函数。图4-25基于C2s-S3DCNN的人体行为识别框架

基于双流Siamese网络的RGB-D行为识别

在单一的RGB或深度模态图像下的人体行为识别研究中,常常会有多重类内变化因素同时出现的情况。而在结合两种模态图像进行人体行为识别时,由于两种模态图像表现形式的差异性,也会带来一些类内差异和类间的重叠,从而加剧了基于RGB-D数据的人体行为识别难度。深度学习方法尤其是端到端的Siamese CNN模型不但能通过层级结构建立底层特征到高层语义特征的映射,还能对输出的高层特征向量进行语义相似与不相似度量,从而为解决行为的类内差异和类间的重叠问题带来可能。因此,本节采用深度学习及Siamese CNN模型对RGB-D人体行为识别过程中的高层特征进行语义相似度度量,以解决行为的类内差异和类间重叠问题。

本节介绍基于协同训练的双流Siamese卷积神经网络(Collaborative two streams Siamese 3D CNN,C2s-S3DCNN)的RGB-D人体行为识别算法。该算法的框架图如图4-25所示。本节网络框架采用双流3D CNN作为基础网络学习每个模态数据的高层特征,其中每个分流网络都是一个以RGB图像对或深度图像对为输入的Siamese CNN网络。因此,该网络结构不仅学习每种模态数据的高层特征,同时也能通过对比损失函数使得高层特征具有更好的类内相似性与类间的可区分性,解决了行为的类内差异与类间重叠问题,从而避免直接融合方式带来的性能“退化”问题。针对Siamese网络和对比损失函数需要构造大量的训练样本对问题,介绍一种改进的中心对比损失函数。该损失函数结合中心损失函数的思想,在RGB和深度模态数据下,为每个类别的样本选择一个参照样本,在对比损失函数中只对每个样本和其类别参照样本的高层特征作相似性度量,而只在所有不同类别参照样本的高层特征之间作不相似度量,从而大大减少了对比损失函数中所需要构造的样本对数量。此外,本节使用等距同构映射将RGB和深度模态高层特征投影到同一个低维空间中,然后在低维空间上实现两种模态高层特征之间的语义度量。由于投影后样本的RGB和深度模态数据都保持原来的邻近关系,因此异质的中心对比损失函数只需要在低维空间上度量RGB和深度模态参照样本高层特征的相似性关系,从而进一步减少了所需要的样本对数量。

最后,C2s-S3DCNN算法在具有不同数据量和应用场景的RGB-D数据库中进行测试,并对实验结果进行了分析。实验结果表明,与现有的基于深度学习的RGB-D行为识别方法相比,C2s-S3DCNN既解决了c-Conv Net和Siamese网络需要构造大量样本对的问题,也解决了RGB和深度模态高层特征语义度量问题,同时C2s-S3DCNN提高了现有的深度学习模型在融合RGB和深度模态数据进行人体行为识别时的准确率。(www.xing528.com)

图4-25 基于C2s-S3DCNN的人体行为识别框架

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈