文章目录

  • 论文精读
  • 论文精读

    摘要

    本文工作:

    提出了一种具有透视监督(perspective supervision)的新型鸟瞰(BEV)检测器,该检测器收敛速度更快,更适合现代图像骨干。 现有的最先进的BEV检测器通常与VovNet等特定深度预训练的主干相连,阻碍了蓬勃发展的图像主干和BEV检测器之间的协同作用。 为了解决这一限制,我们优先考虑通过引入透视图监督(perspective view supervision)来简化BEV探测器的优化。
    为此,我们提出了一个两阶段的BEV检测器,其中来自透视头的proposals被输入入鸟瞰头进行最终预测。

    实验效果:

    为了评估我们的模型的有效性,我们进行了广泛的消融研究,重点是监督的形式和所建议的探测器的类型。 在大规模NUSCENES数据集上,对该方法进行了广泛的传统和现代图像主干的验证,取得了新的SOTA结果。

    1. 介绍(Introduction)

    鸟瞰识别模型吸引了人们对自动驾驶的兴趣,因为它们可以自然地将多个传感器的部分原始观测集成到一个统一的整体3D输出空间中。 一个典型的BEV模型建立在一个图像主干上,然后是一个视图转换模块,该模块将每个特定的图像特征提升为BEV特征,然后由BEV特征编码器和一些特定任务的头进行处理。
    虽然在设计视图转换器上投入了很多心血,和不断增加的下游任务并入新的识别框架中,对BEV模型中的图像主干的研究受到的关注要少得多。 自动驾驶作为一个前沿、高要求的领域,将现代影像骨干内引到自动驾驶中是顺理成章的事情。 令人惊讶的是,研究界为了其大规模深度预训,选择坚持Vovnet。 在本工作中,我们致力于充分发挥现代图像特征提取器在BEV识别中的作用,为未来研究人员在该领域探索更好的图像脊骨设计打开大门。

    然而,简单地使用这些现代图像主干网络而不进行适当的预先训练是不能产生令人满意的结果的。 例如,ImageNet预先训练的ConvNext-XL主干的性能与
    DDAD-15M预先训练的用于3D目标检测的Vovnet-99不相上下。尽管后者有前者的3.5倍的参数。

    我们需要努力适应现代图像骨干的以下问题:

    1)自然图像和自动驾驶场景之间的领域差距。 在一般的二维识别任务中预先训练的骨干对三维场景的感知能力不足,尤其是对深度的估计。

    2)目前BEV探测器结构复杂。 拿Bevformer作为一个例子。 通过视图编码器和对象解码器将三维包围盒和对象类别标签的监督信号从图像主干中分离出来,每个视图编码器和对象解码器都由多层transformer组成。 适用于自动驾驶任务的一般2D图像骨干的梯度流被堆叠的transformer 层扭曲。

    为了克服上述困难,采用现代图像主干进行BEV识别,我们在Bevformer中引入透视监督,即从透视任务发出的监督信号,并直接应用于主干。 它引导骨干学习二维识别任务中缺少的三维知识,克服了BEV检测器的复杂性,极大地方便了模型的优化。

    具体来说,我们构建一个透视3D检测头在主干上,以图像特征为输入,直接预测目标对象的三维边界框和类标签。 作为辅助检测损失,将该透视头的损失(perspective loss)添加到从BEV头导出的原始损失(BEV loss)中。 用相应
    的损失项联合训练两个分解头。 此外,我们发现可以很自然的将这两个探测头组合成一个两级BEV探测器,BEV-Former V2。 由于透视头是完全成熟的,它可以在perspective视图中生成高质量的对象建议,我们将其用作第一阶段建议。 我们将它们编码为对象查询,并将它们与原始Bevformer中的可学习查询集合在一起,形成混合对象查询,然后将混合对象查询送入第二级DetectionHead以生成最终预测。

    我们进行了大量的实验来证实我们提出的透视超视觉的有效性和必要性。perspective loss 促进了图像主干的自适应,从而提高了检测效率,加快了模型的收敛速度。 如果没有这种监督,即使用更长的时间表训练,该模型也无法实现可比的再输出。 因此,我们成功地将现代图像主干与BEV模型相适应,在NUSCENES上获得了63.4%的NDS2]测试集。
    我们的贡献可概括如下:

    • 我们指出透视监督是使一般2D图像主干适应BEV模型的关键。 我们通过透视图中的检测损失明确地添加了这种监督。
    • 我们提出了一种新型的两级BEV探测器,BEV-former V2。 它由透视3D和BEV检测头组成,前者的建议与后者的对象查询相结合。
    • 我们通过将其与最新开发的图像主干结合起来,并在Nuscenes数据集上实现了对以前最先进结果的显著改进,从而突出了我们方法的有效性。

    2. 相关工作(Related Works)

    2.1 BEV三维物体探测器 (BEV 3D Object Detector)

    2.2 摄像机三维目标检测中的辅助损失 (Auxiliary Loss in Camera 3D Object Detection)

    2.3 二阶段的三维物体探测器(Two-stage 3D Object Detector)

    3. BEVFormer v2

    采用现代2D图像主干进行BEV识别,无需进行繁琐的深度预训练,可以提高BEV识别效率,为下游的自动驾驶任务提供了多种可能性。

    在这项工作中,我们提出了Bevformer V2,一个两阶段的BEV检测器,它结合了BEV和透视监督,在BEV检测中避免了采用图像骨干的麻烦。

    3.1 总体架构 (Overall Architecture)

    如图1所示 Bevformer V2主要由图像主干、透视3D检测头、空间编码器、改进型时间编码器和BEV检测头五部分组成。 与原始Bevformer相比,则对除空间编码器以外的所有组件都进行了更改。 具体地说,Bevformer V2中使用的所有图像主干都不是用任何自动驾驶数据集或深度估计数据集预先训练的。 引入透视3D检测头,以方便2D图像骨干的自适应,并为BEV检测头生成对象proposals。 采用了一种新的时域BEV编码器,以更好地融合长期的瞬态信息。 BEV检测头现在接受混合对象查询集作为输入。 我们将第一阶段的建议和学习到的对象查询结合起来,形成新的混合对象查询,用于第二阶段。



    图1: Bevformer V2的整体架构。 图像骨干生成多视图图像的特征。 透视3D头进行透视预测,然后将其编码为对象查询。BEV头为编码器-解码器结构。 空间编码器通过聚合多视图图像特征生成BEV特征,其次是时间编码器收集历史BEV特征。 译码器以混合对象查询为输入,根据BEV特征进行最终的BEV预测。 整个模型用两个检测头的两个损失项LpersLbev训练。

    3.2 透视监督 (Perspective Supervision)

    我们首先分析了鸟瞰模型的问题,以解释为什么额外的监督是必要的。 一个典型的BEV模型在BEV平面上有对应的网格状的特征,其中每个网格聚集来自多视图图像对应的2D像素处的特征的3D信息。 它根据BEV特征预测目标对象的3D检测框,我们将这种强加在BEV特征上的监督命名为BEV监督。
    以Bevformer作为一个例子,它使用编码器-解码器结构来生成和利用BEV特性。 编码器为BEV平面上的每个网格单元分配一组3D参考点,并将它们作为2D参考点投影到多视图图像上。 然后,对二维参考点周围的图像特征进行采样,并利用交叉注意力将其聚合为BEV特征。 解码器是一个Deformable DETR头,它在BEV坐标中预测3D包围盒,并进行少量固定数量的对象查询。 图 2 介绍了由3D到2D视图转换和DETR头引入的BEV监督的两个尚未解决的问题:

    • 对图像特征的监督是隐含的。 这种损失直接作用于BEV特征,而经过3D到2D投影和注意力采样(attentive samplin)后,这种损失就间接作用于BEV特征。
    • 对图像特征的监督是稀疏的。 只有少量用于目标查询的BEV网格才能导致损失。 因此,只有那些网格的2d参考点周围的稀疏像素获得监督信号。

    因此,在训练过程中,BEV检测头依赖于包含在图像特征中的三维信息,但对骨干如何编码这些信息提供了不足的指导。

    以前的BEV方法并没有严重地受到这种不一致性的困扰,它们甚至可能没有意识到这个问题。 这是因为它们的主干网络要么有相对较小的尺度,要么已经用单目检测头预先训练过3D检测任务。 与BEV头相比,透视3D头对图像特征进行每像素预测,为适应2D图像骨干提供更丰富的监督信号。 我们将这种强加在图像特征上的监督定义为透视监督。 如图2所示,与BEV监督不同的是,透视检测损失直接密集地应用于图像特征。 我们假设透视监督显式地引导主干网络感知三维场景并提取有用的信息,如目标的深度和方位。克服了BEV监督的缺点,因此,在训练BEV模型时使用现代图像的主干网路是非常必要的。



    透视监督和BEV监督的对比:透视探测器的监督信号密集且直接指向图像特征,而BEV探测器的监督信号稀疏且间接。

    下图是BEVformer中采用的是BEV监督:

    3.3 透视损失 (Perspective Loss)

    3.4 改进时间编码器(Ravamped Temporal Encoder)

    Bevformer使用反复的时间自我注意力机制来整合历史的BEV特征。但是时态编码器不能充分利用长期的时态信息,简单地将循环步长从4步增加到16步并不能获得额外的性能提高。
    我们采用简单的wrap和concatenate策略重新设计了Bevformer V2的时间编码器。 给定在不同帧k处的BEV特征Bk,我们首先通过第t帧和第k帧之间的转换矩阵


    然后沿信道方向将先前的BEV特征与当前的BEV特征串联起来,并利用残差块进行维数约简。 为了保持与原始设计相似的计算复杂度,我们使用了相同数量的历史BEV特征,但增加了采样间隔。 除了从长期时间信息中获益之外,新的时间编码器还打开了在离线三维检测设置中利用未来BEV特征的可能性。

    3.5 两阶段的BEV编码器(Two-stage BEV Detector)

    虽然联合训练两个检测头进行训练提供了足够的监督,但我们从不同的角度分别得到了两组检测结果。 我们设计了一种新的结构,将两个头集成为两级预测流水线,即两级BEV检测器(two-stage detector),而不是采用BEV头的预测而抛弃透视头的预测或者通过NMS启发式地将两组预测组合。BEV头中的对象解码器,一个detr[3]解码器,使用一组学习到的embeddings作为对象查询,它通过训练来学习目标对象的位置。 然而,随机初始化的embeddings需要很长时间来学习合适的位置。 此外,学习对象查询对于所有的图像都是固定的,由于对象的分布可能不同,因此可能不够准确。 为了解决这些问题,对透视头的预测进行后处理过滤,然后融合到解码器的对象查询中,形成一个两阶段的过程。 这些混合对象查询提供了高得分(概率)的候选位置,使BEV头在第二阶段更容易捕获目标对象。
    混合对象查询的详细信息将在后面描述。应该注意的是,第一阶段的建议不一定是来自一个透视检测器,例如来自另一个BEV检测器, 但实验表明,只有从透视图的预测才对第二级BEV头有帮助。

    3.6 混合对象查询的解码器(Decoder with Hybrid Object Queries)

    为了将第一阶段的建议融合到第二阶段的对象查询中,基于在BEVFormer 中使用的Deformable DETR编码器, 对BEVFormer v2中使用的BEV 检测头的编码器进行修改。
    解码器由层叠交替的自注意层和交叉注意层组成。 交叉注意力层是一种deformable的注意力模式,它以以下三个元素作为输入。 (1)内容查询(content queries):产生抽样偏移量和关注权重的查询特征。 (2)参考点(Reference points):作为每个查询的采样参考,在值特征上的2D点。 (3)值特征(Value features):即要注意的BEV特征。 在原来的Bevformer中,内容查询是一组学习的嵌入,参考点是从一组学习的位置嵌入中用线性层预测的。 在Bevformer V2中,我们从每个特定的头部获得建议,并通过后处理选择其中的一部分。 如图3所示,将所选提议的BEV平面上的投影框中心作为每幅图像的参考点,并与位置嵌入生成的每数据集参考点相结合。 每幅图像的参考点直接指示出目标物体在BEV平面上的可能位置,使解码器更容易地检测到目标物体。 然而,一小部分物体可能由于遮挡而无法被透视头检测到或出现在两个相邻视图的边界处。为了避免丢失这些对象,我们还保留了原始的每个数据集的参考点,以便通过学习空间先验来捕获它们。



    图三: BEVformer v2中的BEV头的解码器。第一阶段的提议(perspective proposals)的投影中心(Projected Centers)被用作每个图像的参考点(Reference Points),它们与每个数据集学习的内容查询(Content Queries)和位置嵌入(Positional Embeddings)结合作为混