前言

本文首发于公众号【3D视觉工坊】,原文请见6D姿态估计算法汇总(上),更多干货获取请关注公众号~

1、DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion (CVPR2019)

原文链接:https://arxiv.org/abs/1901.04780
代码链接:https://github.com/j96w/DenseFusion

主要思想用于从RGB-D图像中估计一组已知对象的6D位姿,分别处理两个数据源,并使用一种新的dense fusion network来提取像素级的 dense feature embedding,并从中估计姿态。实验结果表明,该方法在YCB-Video和Linemod两种数据集上均优于现有的方法。论文还将所提出的方法应用到一个真实的机器人上,根据所估计的姿态来抓取和操纵物体。

本文主要有两点贡献:

1、提出了一种将RGB-D输入的颜色和深度信息融合起来的基础方法。利用嵌入空间中的2D信息来增加每个3D点的信息,并使用这个新的颜色深度空间来估计6D位姿。

2、在神经网络架构中集成了一个迭代的微调过程,消除了之前后处理ICP步骤的依赖性。
在这里插入图片描述

在这里插入图片描述

实验结果:在这里插入图片描述

2、PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation

论文链接:https://arxiv.org/pdf/1812.11788.pdf
代码链接:https://github.com/zju3dv/pvnet

本文提出采用Pixel-wise Voting Network (PVNet)来回归指向关键点的像素单位向量,并通过这些向量使用RANSAC对关键点位置进行投票,从而可以抗遮挡或截断。进一步地,这种表示提供了关键点位置的不确定性,PNP解算器又可以进一步利用这些不确定性。

主要贡献点:

1、提出了PVNet(pixel-wise voting network),它可以学习到一个指向2D
keypoint的向量场表示,即便在遮挡和截断的情况下;作者的创新之处–能够学习到十分robust的2D keypoints。

2、基于PVNet得到的稠密预测,作者用了一种基于关键点分布的PnP算法来从2D keypoints分布求取(R,t)位姿。
在这里插入图片描述

在这里插入图片描述

实验结果:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

3、Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation(CVPR2019)

论文链接:https://arxiv.org/abs/1901.02970
代码链接:https://github.com/hughw19/NOCS_CVPR2019

本文的目标是估计RGB-D图像中从未见过的物体实例的6D位姿和尺寸。与“实例级”6D位姿估计任务相反,作者假设在训练或测试期间没有精确的CAD模型可用。为了处理给定类别中不同的和从未见过的物体实例,作者引入了标准化物体坐标空间(简称NOCS),即同一个类别中的所有物体实例使用一个共享的标准模型来表示。然后,通过训练神经网络来推断观察到的像素与共享标准模型的对应关系以及其他信息,例如类别标签和mask。通过将预测图像与深度图相结合,共同估计杂乱场景中多个物体的6D位姿和尺寸。为了训练网络,作者提出了一种新的上下文感知技术来生成大量带注释的混合现实数据。为了进一步改进模型并评估它在真实数据上的性能,作者还提供了一个完全注释的真实场景下的数据集。大量实验表明,该方法能够鲁棒地估计真实场景中从未见过物体的位姿和大小。

主要贡献:

1、使用一个共享的标准坐标空间(NOCS)作为参考系来表示同一类别中的所有物体实例。

2、提出一个可以同时预测物体类别标签、mask和NOCS图的CNN,将NOCS图与深度图进行对应来估计从未见过物体的位姿和大小。

3、使用空间上下文感知的混合现实方法来自动生成大量数据用来训练和测试。
在这里插入图片描述

在这里插入图片描述

实验结果:

在这里插入图片描述

在这里插入图片描述

4、Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation(ICCV2019)

论文链接:https://arxiv.org/abs/1908.07433

主要思想:由于遮挡和对称性等问题,仅使用RGB图像估计物体的6D姿态仍然具有挑战性。如果没有专家知识或专业的扫描设备,也很难构建具有精确纹理的三维模型。为了解决这些问题,我们提出了一种新的位姿估计方法Pix2Pose,它可以在没有纹理模型的情况下预测每个目标像素的三维坐标。设计了一种自动编码器结构来估计三维坐标和每个像素的期望误差。然后将这些像素级预测用于多个阶段,形成2D-3D对应关系,用RANSAC迭代的PnP算法直接计算姿态。我们的方法通过利用最近在生成性对抗训练中的成果来精确地恢复被遮挡的部分,从而对遮挡具有鲁棒性。此外,提出了一种新的损耗函数变压器损耗,通过将预测引导到最接近的对称姿态来处理对称目标,对包含对称和遮挡目标的三个不同基准数据集的计算表明,我们的方法优于仅使用RGB图像的最新方法。

本文的主要贡献:

1、提出了一种新的6D姿态估计框架Pix2Pose,该框架在训练过程中使用无纹理的3D模型从RGB图像中稳健地回归出目标的像素级3D坐标。

2、一种新的损耗函数:transformer loss,用于处理具有有限个模糊视图的对称对象。

3、在LineMOD、LineMOD Occlusion和TLess三个不同数据集上的实验结果表明,即使对象是被遮挡或对称的,Pix2Pose也优于最新的方法。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

实验结果:

在这里插入图片描述

5、Deep-6DPose: Recovering 6D Object Pose from a Single RGB Image

论文链接:https://arxiv.org/abs/1802.10367v1

主要思想:仅从RGB图像中检测物体及其6D姿态是许多机器人应用的重要任务。虽然深度学习方法在视觉目标检测和分割方面取得了显著的进展,但目标姿态估计任务仍然具有挑战性。本文介绍了一个端到端的深度学习框架deep-6DPose,它可以从单个RGB图像中联合检测、分割和恢复对象实例的6D姿态。特别地,我们将最新的实例分割网络Mask R-CNN扩展到一个新的姿态估计分支,直接回归6D目标姿态,而不需要任何后处理。我们的关键技术贡献是将姿态参数解耦为平移和旋转,以便通过李代数表示来回归旋转。由此产生的姿态回归损失是微分的,不受约束的,使训练变得容易处理。在两个标准位姿基准数据集上的实验表明,我们提出的方法与目前最先进的基于RGB的多阶段位姿估计方法相比,具有更好的性能。重要的是,由于端到端的架构,Deep-6DPose比竞争对手的多阶段方法快得多,提供了10 fps的推理速度,非常适合机器人应用。
在这里插入图片描述

实验结果:

在这里插入图片描述

在这里插入图片描述

6、Multi-Task Template Matching for Object Detection, Segmentation and Pose Etimation Using Depth Images(ICRA2019)

论文链接:https://ieeexplore.ieee.org/document/8794448

主要思想:在有限样本数下,模板匹配可以准确估计新目标的姿态。然而,遮挡物体的姿态估计仍然是一个挑战。此外,许多机器人应用领域遇到深度图像比颜色图像更适合的无纹理对象。本文提出了一种新的多任务模板匹配(MTTM)框架,该框架在预测分割掩模的同时,从深度图像中找到目标物体最近的模板,并利用目标区域的相同特征映射实现模板与被检测物体在场景中的位姿变换。提出的特征比较网络通过比较模板的特征映射和场景的裁剪特征来计算分割遮罩和姿态预测。该网络的分割结果通过排除不属于目标的点,提高了姿态估计的鲁棒性。实验结果表明,尽管MTTM方法仅使用深度图像,但在分割和姿态估计方面优于基线方法。

主要创新点:

1、提出一个新的基于深度的框架:MTTM,通过与模板进行近邻匹配,使用共享的特征图来预测分割mask和物体的位姿。

2、不需要将物体与场景对齐来生成mask。

3、这种方法优于使用RGB的baseline方法。

在这里插入图片描述

在这里插入图片描述

实验结果:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

7、Real-Time Seamless Single Shot 6D Object Pose Prediction(CVPR2018)

论文链接:https://arxiv.org/abs/1711.08848
代码链接:https://github.com/Microsoft/singleshotpose

主要思想我们提出了一种单阶段方法来同时检测RGB图像中的一个物体并预测其6D姿态,不需要多个阶段或检查多个假设。不像最近提出的一些单阶段技术,它只预测一个近似6D的姿势,然后必须细化,我们是足够精确的,不需要额外的后处理。它的速度非常快,在Titan X(帕斯卡)GPU上每秒50帧,因此更适合实时处理。我们的方法的关键部分是一个新的CNN架构,直接预测对象的3D边界框的投影顶点的2D图像位置,然后用PnP算法估计物体的6D姿态。我们的单目标和多目标姿态估计方法在LINEMOD和OCCLUSION数据集上明显优于其他最近基于CNN的方法。

主要贡献: 论文的主要贡献是一个新的网络架构,即一个快速和准确的单阶段6D姿势预测网络,不需要任何后处理。它以无缝和自然的方式扩展了用于二维检测的单阶段CNN结构去执行6D检测任务。实现基于YOLO,但该方法适用于其他单阶段检测器,如SSD及其变体。

在这里插入图片描述

实验结果:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

8、SSD-6D: Making RGB-Based 3D Detection and 6D Pose Estimation Great Again

论文链接:https://arxiv.org/abs/1711.10006v1
代码链接:https://github.com/wadimkehl/ssd-6d

主要思想:提出了一种新的基于RGB数据的三维模型实例检测和6D姿态估计方法。为此,我们扩展了流行的SSD范式,以覆盖完整的6D姿势空间,并仅对合成模型数据进行训练。我们的方法可以与当前最先进的方法在多个具有挑战性的RGBD数据集上竞争或超越。此外,我们的方法在10Hz左右,要比相关的其它方法快很多倍。

主要贡献:

(1) 一个仅利用合成三维模型信息的训练阶段
(2) 模型位姿空间的分解,便于对称性的训练和处理
(3) SSD的一种扩展,产生2D检测并推断出正确的6D姿势
在这里插入图片描述

实验效果:在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

9、Pose-RCNN: Joint object detection and pose estimation using 3D object proposals

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7795763

主要思想:本文提出了一种利用三维数据计算出的方案在单阶段深层卷积神经网络中进行联合目标检测和方向估计的新方法。对于方位估计,我们通过几个精心设计的层来扩展R-CNN结构。介绍了两种新的目标proposals方法,即利用立体数据和激光雷达数据。我们在KITTI数据集上的实验表明,通过合并两个领域的proposal,可以在保持低proposal数量下的同时实现高召回率。此外,在KITTI测试数据集的cyclists简单测试场景中,我们的联合检测和方向估计方法优于最新方法。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

实验结果:

在这里插入图片描述