【摘要】:我们的分类子网络由两层全连接网络实现,使用ResNet50 提取的特征进行分类,进而从物体三维模型集合中获取目标模型作为几何形状先验。在计算二维位移场损失 Lfield 和位姿参数损失时采用平滑 1L 损失函数[R. Girshick,2015]。二维位移场逐像素损失可计算为式中:λ 为不同任务损失的超参数,控制其在多任务学习过程中所占的权重。
特征提取主干网络分为两部分:编码器部分使用ResNet50[K. He,2016];解码器部分由编码器中不同层次的特征跳接并上采样形成。我们的分类子网络由两层全连接网络实现,使用ResNet50 提取的特征进行分类,进而从物体三维模型集合中获取目标模型作为几何形状先验。主干网络的输入是H×W×3 的单目图像,输出是H×W×(2+N×2)的解码特征图,其大小与输入图像一致,其中二通道用以表示前景分割,N×2 通道用于表示N 个二维关键点对应的位移场;分类分支的输出是C+1 维张量,表示图中物体对应的物体三维模型集合中的类别。每张输入图像中仅有唯一的物体,其监督信息是图中物体的三维模型、该三维模型上的N 个三维语义点以及全投影模型参数的真值标签。网络训练需要的N 个二维位移场由N 个二维关键点生成,而N 个二维关键点和分割的真值标签由目标的三维模型通过全投影模型参数的真值投影到图像上生成。我们使用PyTorch 框架自定义反向传播函数的扩展功能实现了PnP 子网络和投票子网络,这两个子网络不包含可训练的参数,仅完成前向计算和我们定义的梯度反向传播。
在计算二维位移场损失 Lfield 和位姿参数损失(包括平移参数损失 tL 和旋转参数损失 RL )时采用平滑 1L 损失函数[R. Girshick,2015]。二维位移场逐像素损失可计算为(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。