首页 理论教育 深度学习中的DPM模型分析

深度学习中的DPM模型分析

时间:2023-06-29 理论教育 版权反馈
【摘要】:目前已成为众多分类器、分割、人体姿态和行为分类的重要部分。2010年Pedro Felzenszwalb被VOC授予“终身成就奖”。DPM可以看做是梯度方向直方图的扩展,大体思路与HOG一致。DPM只是在模型上做了很多改进工作。对于每个block,顺次连接4个cell的直方图,进行归一化,归一化后,大于0.2的数全部截断成0.2。3)DPM令F表示一个尺寸为ω×h的滤波器。其中F0是根滤波器,Pi是第i部分的模型。所以根模型映射到部分模型后尺寸是8×22。

深度学习中的DPM模型分析

可变形部件模型(Deformable Parts Model,DPM)是一个非常成功的目标检测算法,连续获得视觉目标分类(Visual Object Class,VOC)2007、2008、2009年的检测冠军。目前已成为众多分类器、分割、人体姿态和行为分类的重要部分。2010年Pedro Felzenszwalb被VOC授予“终身成就奖”。DPM可以看做是梯度方向直方图(Histograms of Oriented Gradients,HOG)的扩展,大体思路与HOG一致。先计算梯度方向直方图,然后用SVM训练得到物体的梯度模型。有了这样的模板就可以直接用来分类了,简单理解就是模型和目标匹配。DPM只是在模型上做了很多改进工作。

1)HOG特征

第一步,计算梯度。

用最简单的(-1,0,1)模板计算每个像素水平方向的梯度和竖直方向的梯度,再计算梯度的值和角度。如果是彩色图,选取梯度幅值最大的那个通道的梯度。

第二步,计算梯度直方图。

第三步,归一化得到HOG描述子。

定义2×2的细胞单元(cell)为一个块(block),并且组成block的cell可以重叠。那么每个cell被4个block共享。对于每个block,顺次连接4个cell的直方图,进行归一化,归一化后,大于0.2的数全部截断成0.2。对于每个cell,顺次拼接覆盖这个cell的4个block中这个cell的归一化直方图,得到36维向量,作为这个cell的HOG描述子。每个block的4个直方图顺次连接,对得到的向量归一化和截断后,选出属于坐标为(x,y)的cell的那部分直方图,拼接起来,得到这个cell的HOG描述子HOG(x,y)。(www.xing528.com)

2)HOG特征金字塔

给定一个原始图片的尺度,对图片进行缩小,对一系列图片计算HOG描述子,得到HOG特征金字塔。

3)DPM

令F表示一个尺寸为ω×h的滤波器。令H表示一个HOG特征金字塔,p=(x,y,l)表示金字塔第l层坐标为(x,y)的位置。令φ(H,p,ω,h)表示H中第l层左上角坐标为(x,y),尺寸为ω×h的矩形区域中的HOG描述子。那么位置p的score等于Fφ(H,p,ω,h)。因为F已经指定了矩形区域的大小,所以score的表达式可以简化成Fφ(H,p,ω,h)。

一个有n个部分的物体模型可以表示成M=(F0,P1,P2,…,Pn,b)。其中F0是根滤波器,Pi是第i部分的模型。Pi=(Fi,vi,di)由三部分组成,只是第i部分的滤波器,它的分辨率是根滤波器的2倍,vi=(vi,x,vi,y)表示Fi相对于F0偏移量,以F0的左上角作为原点,坐标取F0分辨率的2倍,那么vi就是Fi的左上角在这个坐标系下的坐标,di=(di,x,di,y,di,x2,di,y2)表示形变系数。

根模型的尺寸是4×11,部分模型的分辨率是根模型的2倍。所以根模型映射到部分模型后尺寸是8×22。部分模型共有5个,它们的尺寸和偏移量分别为:

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈