首页 理论教育 目标检测与运动跟踪-无人驾驶车辆研究成果

目标检测与运动跟踪-无人驾驶车辆研究成果

时间:2023-10-15 理论教育 版权反馈
【摘要】:基于传统特征的目标检测算法主要是手工提取特征,结合分类器进行训练,实现对目标的检测。由于RCNN 和Fast RCNN 采用选择搜索生成候选区域[J. Uijlings,2013],因此,Ren 等人[S. Ren,2015]在2015 年提出Faster RCNN 使用候选区域网络替代选择搜索,同时引入锚盒应对目标形变的问题,实现了端到端的目标检测网络,在保证检测准确率的前提下大幅度提高了网络的计算效率。Faster RCNN 成为主流的目标检测方法,然而其速度并不能满足实时性的要求。

目标检测与运动跟踪-无人驾驶车辆研究成果

1. 基于视觉的目标检测

无人驾驶车辆行驶过程中,相机采集的图像数据一般都是环境、光照、形态及色彩多变化的数据,而且目标可能会出现不同程度的遮挡,因此,无人驾驶车辆的目标检测任务一直都极具挑战性。对于目标检测中存在的难点,国内外研究人员进行了大量的算法创新,主要包括基于传统特征的目标检测和基于深度学习的目标检测[K. Joshi,2012;L. Liu,2018]。

基于传统特征的目标检测算法主要是手工提取特征,结合分类器进行训练,实现对目标的检测。2001 年,Viola 等人[P. Viola,2001]提出了Haar 特征,并将Harr 特征与Adaboost、Cascade 进行组合,对人脸进行检测,该算法相比之前的算法,其检测准确率和检测速度都有较大提升。2005 年,Dalal 等人[N. Dalal,2005]提出了方向梯度直方图(Histogram of Oriented Gradient,HOG)特征,它通过计算和统计图像局部梯度直方图构建特征,对图像的几何形状和光照变化不敏感,通过将HOG 特征与SVM 特征结合使用,在目标检测尤其人脸检测中获得了巨大的成功。Felzenszwalb 等人[P. Felzenszwalb,2009]在2009 年提出的DPM(Deformable Part Model)算法,其是一种可变性的组件模型算法,是对HOG 特征的进一步扩展,DPM 的检测基本思想是先提取DPM特征,再使用Latent SVM 进行检测和分类。相比以往的目标检测算法,DPM的检测性能大幅增加,并连续获得了2007—2009 年Pascal VOC 的检测冠军,被认为是深度学习出现之前目标检测领域最优秀的算法之一。但是DPM 特征依赖训练样本的长宽比,且DPM 特征的计算较为复杂,因此,DPM 在一些复杂的场景有明显的局限性[P. Felzenszwalb,2010]。然而,Ren 等人[X. Ren,2013]认为HOG 特征和DPM 特征仅对图像梯度充分利用,忽略了图像的纹理、边缘特征,提出一种新的特征HSC(Histograms of Sparse Codes),HSC 充分发挥了HOG 特征的优势,并弥补了HOG 特征的不足。HSC 特征通过使用K−SVD字典学习法得到图像的稀疏表达,然后将得到的稀疏矩阵通过HOG 的方法作成直方图,即得到HSC 特征,使用HSC 特征替代HOG 特征和DPM 特征对目标进行检测和识别,检测准确率有了明显提高。

近年来,深度学习模型逐渐取代基于传统特征和传统机器学习的视觉方法而成为计算机视觉领域的主流算法。与传统算法不同,深度学习自动提取图像的特征,而不再需要手动提取特征。而且,深度学习能够提取图像底层细节特征和高层全局特征,使得深度学习对环境、光照、形状、姿态和几何等变化具有良好的鲁棒性。深度学习成为现代目标检测代表方法的起源来自 2012 年Krizhevsky 等人提出的AlexNet[A. Krizhevsky,2012],结合卷积层、激活层等搭建的AlexNet 网络,该网络在ImageNet 图像识别比赛中一举获得冠军,且准确率比第二名SVM 方法高出10%,卷积神经网络也因其优秀的性能吸引了众多研究者的注意。2013 年,Sermanet 等人[P. Sermanet,2013]提出OverFeat,整合网络结构使单一网络实现分类和识别,充分利用了卷积神经网络的特征提取功能和权值共享特性。Girshick 等人[R. Girshick,2014]在2014 年提出RCNN网络结构,RCNN 成功地将卷积神经网络应用于目标检测任务中,其使用候选区域实现目标的检测与识别,大幅度提高了目标检测的准确度,成为目标检测任务的奠基者,RCNN 的思想也成为后续很多网络结构的基础。考虑到RCNN需要将输入图片缩放到固定尺寸,造成目标特征的丢失和性能的损失,He 等人[K. He,2015]在2015 年提出SPPNet,能够实现多阶段多尺寸的训练方法,且不再对每个区域计算卷积而只需要对整个图像进行一次卷积,节约了大量的计算时间。基于SPPNet 的创新点,Girshick 等人[R. Girshick,2015]将RCNN进行了改进,提出Fast RCNN,直接对整张输入图进行卷积操作,大幅度提高训练和推理的计算效率[R. Girshick,2015]。由于RCNN 和Fast RCNN 采用选择搜索生成候选区域[J. Uijlings,2013],因此,Ren 等人[S. Ren,2015]在2015 年提出Faster RCNN 使用候选区域网络替代选择搜索,同时引入锚盒应对目标形变的问题,实现了端到端的目标检测网络,在保证检测准确率的前提下大幅度提高了网络的计算效率。

Faster RCNN 成为主流的目标检测方法,然而其速度并不能满足实时性的要求。为了提高基于深度学习的目标检测算法的实时性,以YOLO、SSD等网络为代表的基于回归方法的检测网络逐渐出现。2016 年 Redmon 等人[J. Redmon,2016]提出了YOLO,YOLO 是一个一阶段的端对端网络结构,其不需要获取候选区域,而是直接对特征图进行回归输出包围盒和类别概率,这使得检测速度大幅度提升。然而,YOLO 采用的网格回归方法对目标的定位不是非常精准,因此,Liu 等人[W. Liu,2016]分析了YOLO 存在的不足,结合Faster RCNN 和YOLO 的思想提出了一阶段网络SSD,SSD 基于一个特征提取网络生成一系列的包围盒,然后对包围盒进行回归,预测目标的类别信息和位置信息,SSD 既保留了Faster RCNN 准确度高的特性,又保留了YOLO 速度快的特性。Redmon[J. Redmon,2017]也在 YOLO 原有基础上,加入了Faster RCNN 的锚盒方法,提出了YOLO v2 和YOLO v3,其增加了批规范化和多尺度等思想,在目标检测任务中获得了高准确率和高速度的性能。

目前,深度学习是目标检测任务中效果最佳、性能最好的算法,因此,深度学习已经成为目标检测任务的首选解决方法。

2. 基于激光雷达的目标检测

激光雷达通过激光发射器发射激光射线扫描周围环境,将数据返回到接收器。由于对环境的感知信息来源于自身发射的激光,受外界干扰小,可以得到高精度的环境距离信息,有利于计算环境中目标的位置和移动速度等信息。基于激光雷达的障碍物检测可以分为基于传统栅格单元分析的方法和基于神经网络的检测方法。(www.xing528.com)

基于栅格单元分析的目标检测方法是用目标在栅格地图中占据的栅格分析其运动信息。最早该方法是通过建立动态贝叶斯占据栅格地图,栅格单元的运动速度表示周围的环境,然后结合目标聚类的方法在栅格地图中检测动态目标。Gindele 等人[T. Gindele,2009]提出用具有运动速度的粒子表示单元格的速度分布和被占据栅格之间的相似性,对邻近具有相似速度的栅格进行聚类检测动态障碍物。Schütz 等人[M. Schütz,2014]利用D−S 证据理论对被占据栅格进行运动冲突分析,判断该栅格是否为运动目标的栅格。Jungnickel等人[R. Jungnickel,2014]使用D−S 证据理论检测属于运动目标占据的栅格,提取出与静止障碍物分离的栅格表示动态目标。 Tanzmeister 等人[G. Tanzmeister,2014]利用D−S 证据理论结合粒子地图和与传感器反向运动的目标分析粒子的运动。由于一个目标可能占据多个栅格,因此需要对目标占据的所有栅格进行分析,使得基于栅格单元的动态目标检测方法效率较低。所以,基于栅格单元进行运动分离检测动态目标往往需要结合SLAM。

相比于图像数据的固定尺寸、数据有序排列等特点,激光雷达原始点云数据存在无序性、数量可变性、稀疏性和密度可变性等特点,因此与二维图像数据格式存在很大的差异。为了使激光雷达点云数据能够作为卷积神经网络的输入数据,很多研究者提出了不同的点云处理方式和卷积神经网络结构,主要分为以下三类。

(1)将点云映射成图像,然后将图像作为卷积神经网络的输入。Chen 等人[X. Chen,2017]提出将稀疏的点云数据进行多视图的投影,然后将生成的投影图作为卷积神经网络的输入,该方式将点云数据映射成图像,使得卷积神经网络的输入数据格式为图像格式,但是图像信息不再是RGB 信息而是点云数据的深度、高度等信息。将点云映射为图像后进行卷积神经网络预测,对卷积神经网络的结构形式没有影响,因此该点云卷积神经网络不受点云数据的无序性、可变性影响。

(2)将点云栅格化成体素网格,作为卷积神经网络的输入。体素数据格式中不仅包含物体的表面信息,还能描述物体的内部属性。与图像的卷积神经网络相似,将具有空间表达能力的点云数据转换为体积表示,即对点云进行体素化处理,然后输入卷积神经网络中,再用三维滤波器来替代图像的二维滤波器。Zhou 等人[Y. Zhou,2018]提出VoxelNet 网络结构,用于点云的深度学习,将点云划分为等间距的三维体素,然后通过体素特征编码层将每个体素内的一组点云转换为统一的特征表示。通过这种方式,实现对目标的识别与检测,获得目标的三维包围盒,即获得目标的三维信息和类别信息。然而,由于使用三维滤波器,使得卷积神经网络的前向传播和后向传播参数量、运算次数都大幅度增加,因此,这种方式的回归预测耗时长,不适用于对实时性要求很高的场合和产品。

(3)不对点云进行任何的预处理,直接将原始点云作为网络的输入,通过变换网络结构来适应点云的无序性、旋转性和数据可变性等特性。Qi 等人[R. Charles,2017a]提出了PointNet 网络结构,PointNet 网络结构中采用对称函数来处理点云数据的无序性,以空间变换网络来解决点云的旋转问题,实验证明,PointNet 的分类和回归预测准确度很高,运算速度相对上述两种输入方式都有所提升。将原始点云数据作为卷积神经网络的输入,充分发挥卷积神经网络强大的特征提取能力,最大程度地保留了点云数据的信息,因此,在对点云的分类、检测、识别等任务上获得了较高的准确度以及更少的运算次数。

3. 基于多传感器融合的目标检测

随着研究的深入,单传感器方案的局限性越来越明显,因此学者们开始研究多传感器信息融合方案。Darms 等人[M. Darms,2008]提出一种通用的融合框架,将整个传感器融合架构分为传感器层和融合层,对于每种传感器都实现一种特定的传感器层,毫米波雷达和激光雷达同时完成车辆的长距离检测以及近距离的形状和方位估计,重点研究了针对不同传感器检测结果获得的目标检测结果。Hwang 等人[S. Hwang,2016]基于激光雷达和彩色相机提出了一种多目标检测和跟踪融合框架,该框架由感知层、分割层、检测层和跟踪层组成,在图像和雷达点云上分别运行检测算法,得到检测结果之后通过投票计分的方法融合两者检测结果,得到最终的检测目标,但是整体算法速度只有4 Hz。Wang 等人[W. Jun,2016]也使用激光雷达和相机融合完成对行人的检测,将基于激光雷达的行人分割作为弱分类器,基于视觉的行人检测算法作为强分类器,同样使用投票方法融合两者的检测结果。这些方法大都针对每个传感器单独设计检测器,然后采用决策层后端融合策略得到更加可靠的检测目标。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈