核心思想


  本文提出一种基于坐标的6D位姿估计网络,现有的位姿估计算法通常可以分为直接方法和间接方法,直接方法就是通过回归的方式直接输出6D位姿信息,间接方法就是分别预测目标的2D图像坐标和3D空间坐标,然后通过PnP方法来计算位姿。作者发现对于位姿估计中的旋转矩阵,使用间接法计算更加准确,而对于平移矩阵更适合用直接法来计算,因此作者提出了“分离”位姿网络,分别使用两种方式来估计旋转和平移矩阵。


实现过程


在这里插入图片描述
  首先,相对于基于关键点进行位姿估计的方法,基于稠密坐标的位姿估计对于遮挡和聚集问题更加的具有鲁棒性。为了构建2D图像坐标和3D空间坐标之间的对应关系,要从图像中精确提取出目标区域,有些方法是采用语义分割网络来实现的,但语义分割网络无法区分同类物体的不同实例;而实例分割网络速度较慢难以满足实时性要求。本文提出一种两阶段方法:第一阶段使用一个快速的目标检测方法得到粗糙的检测结果,第二阶段使用一个固定尺寸的分割方法来提取目标的像素。
  由于目标物体的尺寸随着与相机之间的距离变化是在改变的,这给坐标预测带来很大的困难,而且当物体较小时很难提取足够的信息。为了解决这个问题,本文采用一种动态放大(Dynamic Zoom In,DZI)的方法将目标物体放大至一个固定的尺寸。根据目标检测网络得到目标物体的中心坐标





C



x


,


y





C_{x,y}


Cx,y
和尺寸




S


=


m


a


x


(


h


,


w


)



S=max(h,w)


S=max(h,w)
,从一个截尾正态分布中采样得到新的






C


~




x


,


y





\tilde{C}_{x,y}


C~x,y






S


~




\tilde{S}


S~

在这里插入图片描述
其中




α


,


β


,


γ


,


ρ



\alpha,\beta,\gamma,\rho


α,β,γ,ρ
是约束采样范围的参数。利用






C


~




x


,


y





\tilde{C}_{x,y}


C~x,y






S


~




\tilde{S}


S~
提取目标物体,然后在保持长宽比不变的条件下将其放缩至固定的尺寸。
  正如上文所说,本文需要预测目标物体稠密的3D坐标,此外还需要预测每个像素属于目标物体的置信度,作者使用一个网络同时完成这两个任务。首先固定尺寸的目标物体图像经过一个主干网络提取特征,然后利用一个由多层卷积层和反卷积层构成的“旋转头”来预测3D坐标和置信度,具体而言就是输出一个4通道的“坐标-置信度”图(




H


×


W


×


4



H \times W \times 4


H×W×4
),其中三个通道表示坐标图





M



c


o


o


r





M_{coor}


Mcoor
,分别表示物体坐标系中得




X


,


Y


,


Z



X,Y,Z


X,Y,Z
坐标,另一个通道表示置信度图





M



c


o


n


f





M_{conf}


Mconf
表示该像素属于目标物体得概率。因为对于背景部分的3D坐标的真实值是未知的,许多方法是为这些点赋予一个特殊值,这种方法适用于基于分类的方法。但本文的方法是直接的预测稠密的3D坐标,这推动网络预测目标物体的边界有清晰的边缘,这非常困难而且会导致坐标预测误差较大。为了解决这个问题,本文提出一个掩码的坐标-置信度损失(MCC Loss):
在这里插入图片描述
其中








\circ


表示Hadamard乘积。对于坐标预测,只计算目标所在的前景区域损失;对于置信度预测,对全部区域计算损失。
  得到置信度图后,通过设定阈值,就可以将属于目标物体的像素筛选出来。但是因为之前做了动态放大的操作,导致RGB图像中的点和置信度图





M



c


o


n


f





M_{conf}


Mconf
与坐标图





M



c


o


o


r





M_{coor}


Mcoor
并不是准确对应的,为了计算2D图像-3D坐标的匹配关系必须将其坐标图中的像素坐标映射回RGB图像中:
在这里插入图片描述
其中,




(



u


^



,



v


^



)



(\hat{u},\hat{v})


(u^,v^)
表示RGB图像中的坐标,




(


i


,


j


)



(i,j)


(i,j)
表示坐标图中的坐标,




(



c


u



,



c


v



)



(c_u,c_v)


(cu,cv)





(




S


~



x



,




S


~



y



)



(\tilde{S}_x,\tilde{S}_y)


(S~x,S~y)
分别表示RGB图像中物体的中心坐标和尺寸,




(



c


i



,



c


j



)



(c_i,c_j)


(ci,cj)





(



S


x



,



S


y



)



(S_x,S_y)


(Sx,Sy)
分别表示坐标图中物体的中心坐标和尺寸,




{


}



{}


{}
表示取整。得到2D-3D坐标对应关系后,可以利用PnP算法计算得到旋转矩阵。
  虽然平移矩阵也可以利用2D-3D坐标对应关系通过PnP算法求解,但是作者分析发现受到放缩因子误差





δ



s


c


a


l


e





\delta_{scale}


δscale
的影响,平移矩阵中的深度值





T


z




T_z


Tz
误差较大,而作者还发现利用语义分割网络直接预测平移矩阵其准确率较高,因此作者提出使用直接法来预测平移矩阵的参数。即对于旋转矩阵本文采用PnP方法间接计算,平移矩阵使用网络直接预测,并将其整合到一个网络中,称之为基于坐标的分离位姿网络(Coordinates- based Disentangled Pose Network ,CDPN)
在这里插入图片描述
上式(4)中的




T



T


T
应为




R



R


R
表示旋转矩阵,




K



\mathbb{K}


K
表示相机内参,





P



u


,


v





P_{u,v}


Pu,v
表示2D图像坐标,





Q



x


,


y


,


z





Q_{x,y,z}


Qx,y,z
表示3D空间坐标,





G


w




\mathcal{G}_w


Gw
表示平移矩阵预测网络,




I



I


I
表示输入图像。
  为了实现平移矩阵的准确高效预测,本文提出了尺度不变的平移矩阵估计网络(Scale-Invariant Translation Estimation,SITE),首先提取全局图像信息





T


G




T_G


TG
包括采样局部图块的中心位置





C



x


,


y





C_{x,y}


Cx,y
和尺寸




(


h


,


w


)



(h,w)


(h,w)
,然后利用“平移头”预测一个尺度不变的平移向量





T


S



=


(



Δ


x



,



Δ


y



,



t


z



)



T_S=(\Delta_x,\Delta_y,t_z)


TS=(Δx,Δy,tz)
,其中





Δ


x




\Delta_x


Δx






Δ


y




\Delta_y


Δy
表示目标外接框中心与物体中心之间的相对坐标偏差
在这里插入图片描述
其中




r



r


r
表示DZI中的放缩比例。则还原为旋转矩阵为
在这里插入图片描述
SITE的损失函数为
在这里插入图片描述
本文的6D姿态估计和3D坐标估计结果如下
在这里插入图片描述


创新点


  • 提出一种基于坐标的分离位姿网络,旋转矩阵通过间接法计算,平移矩阵通过直接法预测
  • 引入了动态放大操作将目标物体放缩为固定尺寸的图块
  • 提出了MCC损失和旋转不变性平移预测网络SITE

算法评价


  本文最主要的创新就是将旋转矩阵和平移矩阵分开计算,充分发挥了间接法和直接法的优势。利用DZI降低了对于目标检测精度的要求,因此可以采用参数更少的速度更快的预测方法,并且可以根据需要更换检测算法。


如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述