文章目录


  • 2.1 MV-FCOS3D++


    • 2D特征提取(2D Feature Extraction)

    • 特征变换(Feature Transformation)

其中π表示3D到2D坐标投影(为了简单起见,不考虑rolling shutter)。 由于Waymo数据集中行驶的汽车配备了环绕摄像头,因此一个3D点可能对应于图像中的多个2D点。 为了解决这一问题,我们采用了Mean平均池来聚合来自多个2D点的特征。

    •     基于体素的3D检测器(Voxel-Based 3D Detector.)





基于锚框的3D检测头(The anchor-based 3D head)

一种类似于SSD[8]的结构也广泛应用于基于激光雷达的三维目标检测[6,15]。 它由三个部分组成:锚分类、包围盒回归和方向分类。 锚分类识别积极的锚并估计相应的语义类(即汽车、行人和自行车手)。 在[10,15]之后,正锚点由BEV空间中具有地面真值的锚点之间的IOU确定。 汽车的正负阈值分别为0.6和0.45,行人和骑自行车的正负阈值分别为0.5和0.35。 在训练过程中,基于锚的头部损失定义如下:

基于中心的三维检测头 (The center-based 3D head)

基于中心的3D头[16]是无锚的检测头。 该方法首先基于关键点网络对对象中心进行局部化,然后对边界框属性进行回归。 回归部分由目标位置、尺寸和包围盒偏航角的余弦值和正弦值组成。 总体损失定义如下:


2.2 Pretraining with Perspective-View Supervision

正如文献[9,14]所观察到的,基于BEV的3D探测器可以从基于单眼的范例的主干预训练中受益,因为缺乏透视图监督。 为此,我们首先通过一个简单的基于单目的三维检测器FCOS3D++[12,13]对二维特征提取分量进行预训练,只带有对象注释,然后在BEV空间训练检测器时,用较小的学习速率(0.1×)对其进行优化。 FCOS3D++的实现遵循其开源版本[2],同时根据Waymo上的统计数据调整深度和3D大小先验值。 此外,我们只使用P3-P5(图1),回归范围设置为(0,128,256,∞),以更有效地产生多水平预测。 到目前为止,我们已经建立了一个可以从单帧多视点图像中进行三维检测的基线。 虽然它在相邻视图之间的重叠区域引入了一些立体线索,但对于精确估计目标深度仍然有限。 接下来,我们将展示如何利用连续帧提供的立体声提示。

2.3 Dual-Path Temporal Modeling

与典型的多视图或双目设置类似,在静态环境中,两个时间附近的图像也具有立体对应关系。 与基于单眼的理解相比,立体深度估计的基本原理是不同的:它依赖于匹配而不是数据分离的单眼先验信息。 因此,我们使用级联而不是简单的平均池来构造多帧体积特征。 此外,虽然立体估计可以利用绝对自我运动提供的强线索,但也有许多情况是立体估计方法无法处理的,如静态场景和运动物体。 因此,我们进一步设计了一个双路径方案来保持单目理解分支,并允许其自适应地补偿立体估计。