原文链接:https://arxiv.org/pdf/2202.02980.pdf

2 任务


        通常每个被检测物体表达为在某个预定义坐标系下的位置[x,y,z],尺寸[h,w,l]和朝向[\theta,\phi,\psi],但通常只使用绕竖直轴的偏航角。



3.数据集与评估


3.2 评估指标


        KITTI 3D数据集提供了AP指标,包含3D AP和BEV AP。此外,平均朝向相似度(AOS)用于评估朝向估计精度:


\textup{AOS}=\frac{1}{|\mathbb{R}|}\sum_{r\in \mathbb{R}}\max_{​{r}':{r}'\geq r}s({r}')


这里\mathbb{R}是预定义的召回率值集合,上式即将召回率r处的朝向相似度s(r)插值为召回率大于rs的最大值(与AP值的计算类似)。此外s(r)为归一化余弦相似度:


s(r)=\frac{1}{|D(r)|}\sum_{i\in D(r)}\frac{1+\cos \Delta_\theta^{(i)}}{2}\delta_i


其中D(r)是召回率为r时所有的检测结果集合,\Delta_\theta^{(i)}是估计边界框和实际边界框的朝向角差值。为惩罚对一个目标的多次检测,若检测i有匹配的真值,则\delta_i=1;否则\delta_i=0


        Waymo Open使用朝向加权AP(HAP),即每个TP检测带有朝向精度的权重\min(|\theta-\theta^\ast|,2\pi-|\theta-\theta^\ast|)/\pi,其中\theta\theta^\ast分别是预测和真实的朝向角(弧度制且范围为[-\pi,\pi])。


        nuScenes提供物体的属性(即细分类别,如对车可细分为运动或静止)和速度真值;使用中心距离而非IoU作为匹配TP的准则,然后计算不同匹配阈值、不同类别下的AP均值(mAP),但该方法仅衡量定位误差。



  • 平均平移误差(ATE):衡量2D地平面上的物体中心距离。
  • 平均尺度误差(ASE):对齐角度和朝向以后的3D IoU误差(1-\textup{IoU})。
  • 平均朝向误差(AOE):最小偏航角误差(弧度制)。
  • 平均速度误差(AVE):绝对速度误差(L_2范数)。
  • 平均属性误差(AAE):1减去属性分类精度。

        mTP为上述每个误差按类别平均。即


\textup{mTP}_k=\frac{1}{|\mathbb{C}|}\sum_{c\in\mathbb{C}}\textup{TP}_{k,c}


        则nuScenes检测分数(NDS)为


\textup{NDS}=\frac{1}{10}[5\cdot \textup{mAP}+\sum_{k=1}^5(1-\min(1,\textup{mTP}_k))]



4 框架


4.2 基于2D特征的方法


        使用2D特征估计2D位置、朝向和尺寸,然后将2D检测提升到3D空间。因此也可称为基于结果提升的方法


        通常使用CNN估计深度d,然后按下式将2D检测提升为3D空间:


\left\{\begin{matrix} \begin{aligned} z&=d\\ x&=(u-C_x)\times z/f\\ y&=(v-C_y)\times z/f \end{aligned} \end{matrix}\right.


其中(C_x,C_y)是主点,f是焦距,(u,v)是物体的2D位置。该方法仅需物体中心的深度。


        与2D检测器一样,可进一步分为基于区域的方法和single-shot方法。


4.2.1 基于区域的方法


        基于R-CNN系列工作的思想。先从输入图像生成(可能包含物体的)区域提案,然后使用CNN从这些区域提取特征。然后使用提取的特征来细化提案并估计类别。


        提案生成:在地平面上铺设3D锚框(提案的形状模板),然后投影到图像平面作为提案。通常计算开销很大,需要减小搜索空间的方法。



  • Mono3D(单目图像检测)和3DOP(立体图像检测)使用域特定的几何先验(如形状、高度、位置分布)移除低置信度提案。
  • 有方法使用网络在2D前视域估计含有物体的置信度图,只有高置信度的锚框用于后续步骤。
  • 区域提案网络(RPN)使得提案生成无需外部算法,直接使用卷积网络输出的特征来生成提案。

         引入空间信息: 



  • Stereo R-CNN扩展RPN和R-CNN来实现立体图像3D目标检测。即首先使用网络分别提取左右图像特征,然后使用融合特征生成提案。该方法使用CNN从立体图像隐式地学习视差/深度。
  • Multi-Fusion(单目图像3D检测方法)先使用现成的深度估计器生成深度图,然后使用多种信息融合策略融合RGB图像和深度图。

4.2.2 Single-shot方法


        直接使用CNN在每个特征位置预测类别概率、回归3D边界框参数。通常比基于区域的方法有更快的推断时间。


        基本single-shot模型



  • M3D-RPN:使用定制的RPN生成2D锚框和3D锚框。3D锚框的形状通常与物体的语义标签有关。
  • CenterNet:将物体编码为一个点(物体中心点)并使用关键点估计来寻找该点。然后使用多个头来估计不同的参数(位置、尺寸、朝向、深度)。

4.3 基于3D特征的方法


        使用图像生成3D特征,然后直接估计3D边界框参数。可进一步分为基于特征提升的方法和基于数据提升的方法。


4.3.1 基于特征提升的方法


        一般思想是将2D图像特征转化为世界坐标系中3D体素特征,然后压缩垂直方向,生成BEV特征。


单目图像特征提升方法



  • OFTNet:基于检索的检测模型。得到体素特征的方法是累计体素在图像上的投影对应的特征:

V(x,y,z)=\frac{1}{(u_2-u_1)(v_2-v_1)}\sum_{u=u_1}^{u_2}\sum_{v=v_1}^{v_2}F(u,v)


上式中(u_1,v_1)(u_2,v_2)是体素投影的左上角和右下角坐标。





  • 另一方法将深度空间离散化为区间,将深度估计视为分类任务。因此估计结果是一个概率分布D而非确定值。则3D棱台特征G(u,v)可由图像像素特征F(u,v)和深度分布D(u,v)得到:

G(u,v)=D(u,v)\otimes F(u,v)


其中\otimes是外积。


然后使用相机参数将图像-深度坐标系中的特征转换为3D世界坐标系的特征。



        立体图像特征提升方法:立体匹配技术使得从立体图像建立3D特征比单目图像更容易。



  • 深度立体几何网络(DSGN):先从立体图像对中提取特征,然后使用经典的平面扫描方法,将左图特征和重投影的右图特征在均匀分布的深度值下拼接,建立4D平面扫描volume。然后4D volume转化到3D空间内,然后投影为BEV特征图预测最终结果。

4.3.2 基于数据提升的方法


        2D图像被转化为3D数据,然后提取3D特征。


        伪激光雷达方法:先用图像估计密集深度图,然后使用4.2节开头的公式将像素坐标转换为3D坐标生成伪激光雷达点云,最后使用基于激光雷达的检测方法来处理。


        提高深度图质量:基于伪激光雷达的方法主要问题在于远处目标视差的小误差会导致深度的大误差。



  • 有方法将视差cost volume转化为深度cost volume,然后使用端到端学习方法代替视差变换估计深度图。

_查了一下,这个视差的cost volume应该就是视差的搜索空间,一般维度为C\times D\times H\times WD为视差范围)。则\texttt{cost\_volume[:,i,u,v]}衡量左图(u,v)像素与右图(u,v+i)像素的相似度/差异度。_


  • 有方法使用非均匀视差离散化策略使得深度分布为均匀的,减小了远处物体的深度估计误差。
  • 还有方法使用廉价的稀疏激光雷达修正深度估计器的系统误差。

上述方法均提高了对遥远物体的检测性能。


        关注前景对象:上述方法估计完整的深度图引入了不必要的计算,因为只有前景像素需要关注。



  • 可使用2D边界框移除背景点,或使用实例掩膜(性能更好,但该方法需要额外的逐像素标注)。
  • 也可在深度估计阶段处理,如为2D边界框内的前景点设置更大的权重,从而使前景点的估计更加准确。
  • 像素属于前景点的置信度可以附加到伪激光雷达的特征上增强表达。

        整合其他信息:多数方法仅将伪激光雷达点云输入检测网络。



  • 可以使用注意力模块将点与相应像素的RGB特征融合。
  • 也可用CNN估计边界框内每个像素/点的相对位置,增强伪激光雷达信号。

        端到端学习:通常基于伪激光雷达的方法被分为两个步骤,即深度估计和3D检测,不能端到端地训练。



有方法提出可微的表达变换(CoR)模块,允许梯度从3D检测网络回传到深度估计网络,使整个系统受益于联合训练。


        基于图像表达的方法



  • PatchNet使用图像来表达伪激光雷达信号,达到了几乎相同的效果。这表明是图像坐标到3D空间的坐标变换是关键,而非点云表达。
  • 有工作通过添加置信度预测头来改进PatchNet,得到更好的效果。

        由于成熟的2D CNN,该方法有更大的潜力。


        其余提升方案



使用GAN或逆透视映射将图像前视图转换为鸟瞰图,然后使用基于BEV的3D检测器检测。



5 组件比较


5.1 特征提取


        大多数工作均使用标准CNN网络(包括2D CNN、3D CNN和逐点CNN)。


        局部卷积



M3D-RPN:使用两个并行分支分别提取空间不变特征和空间感知特征。对于后者,使用局部卷积(深度感知卷积),即非共享的卷积核对不同行(粗略地对应不同深度)的特征进行特征提取。最后将空间不变特征和空间感知特征组合,预测最终结果。



        特征注意力机制



有方法提出立体图像3D检测的注意力方案:计算左图第i个通道和右图第i个通道的余弦相似度s_i,然后使用其缩放特征。


        深度增强特征学习:使用现成的深度估计网络估计深度图,增强RGB特征。



  • 有方法提出局部卷积网络,使用深度图指导动态局部卷积核的学习。
  • 还有方法基于图网络设计信息传递模块,将每个位置的特征向量和其最相关的邻域作为节点,动态采样图像和深度图的节点后将深度信息传递到RGB特征。该模块被用在多个特征层次,以获得更丰富的特征。

        特征模仿:使用基于激光雷达的模型指导基于图像的模型提取特征。即将基于激光雷达的模型学到的知识转移到基于图像的模型。



  • 有方法使用伪激光雷达方法,让提取的伪激光雷达特征与真实激光雷达特征相似。
  • 还有方法将特征模仿应用于基于特征提升的方法(如在转换后的体素特征或BEV特征上进行特征模仿)和基于结果提升的方法。

        特征对齐:由于通常只考虑偏航角,当滚转角/俯仰角不为0时存在不对齐问题。



可以使用子网络估计自车姿态,然后使用特征转移网络,根据相机姿态,在内容和风格上对齐特征。最后使用修正的特征估计3D边界框。



        特征池化



GS3D:对于给定的3D锚框,从每个可视表面提取特征,并用透视变换将其变形为规则形状。然后这些特征组合起来细化提案得到最终结果。这些特征可以通过RoI对齐或RoI池化,使用2D锚框中的特征进一步增强。



5.2 结果预测


5.2.1多尺度预测


        基本方案是用CNN最后一层的输出来预测结果。但由于物体有不同尺寸,从特定层预测所有物体是很困难的。


        层级方法:在CNN的层级上操作。



        (1)基于多层预测的方法(左图):不同层关注不同的尺度范围。


        (2)基于特征融合的方法(中图):聚合不同层的特征,使用增强特征预测。该方法简单而高效。


        (3)混合方法(右图):如FPN组合了前两种方法。


        核级方法:通过调整卷积核的感受野解决多尺度预测问题。


        (1)膨胀卷积引入膨胀率参数,可在不增加计算量的前提下增大感受野。



有方法根据物体深度动态调整膨胀率。


        (2)可变形卷积使用数据驱动方法学习采样位置。



其另一变体根据锚框形状生成采样位置。


        膨胀卷积可看作可变形卷积的特殊情况。


        层级方法与核级方法正交,即可以在同一算法协同工作。


5.2.2 分布外样本


        由于距离、遮挡和截断等,不同物体有不同特性,从统一网络中预测所有物体可能不是最优的。可通过避免分布外样本干扰模型训练来提高性能。



  • 可将物体根据深度分为3类,使用不同的头来并行估计各类物体。
  • 还可根据截断情况将物体分为2类,分别使用不同的标签分配策略和损失函数。
  • 有方法发现遥远物体几乎不能精确检测,减小它们的训练权重或移除它们可以提高整体性能。

5.2.3 深度估计的投影建模


        投影建模是3D检测中最常用的几何先验,即3D边界框的高度H_{3D}及其2D投影的高度H_{2D}关系为:


d=f\times\frac{H_{3D}}{H_{2D}}


其中d为物体深度,f为相机焦距。


        有方法使用2D边界框的高度来近似H_{2D},从而估计深度。但实际上两者并不相同。



  • GUPNet提出基于不确定性的方案,对投影建模中的几何不确定性进行建模。该方法通过捕捉有噪声透视投影建模中的不确定性来提高性能。
  • 可以使用CAD模型帮助标注关键点,使用2D/3D关键点的高度差进行深度估计。该方法通过重标签减小噪声。
  • 还可以根据物体位置、尺寸和朝向,修改投影建模公式,建立3D边界框及其2D投影的关系。该方法通过数学建模减小误差。

5.2.4 多任务预测


        将3D检测作为多任务学习:3D检测是类别、位置、尺寸、朝向的联合学习。



  • GUPNet动态调整各任务的学习权重。
  • 有工作认为各任务不是独立的(如2D/3D边界框的高度比与物体深度有关),建立各任务的层次结构,每个任务的训练权重与前一个任务相关。
  • 还可以将任务分为外表相关任务和定位任务,两组任务分开学习,中间有信息传递模块。

        与其他任务联合学习:CNN可以从多个任务的联合训练中获益。



  • 使用2D检测作为辅助任务,为3D检测提供额外几何提示。
  • 关键点估计任务可丰富CNN特征,估计的关键点可以优化深度估计子任务。
  • 深度估计任务可以大幅提升3D检测器的性能。

5.3 损失函数


        总损失函数为L=L_{\textup{cls}}+L_{\textup{loc}}+L_{\textup{dim}}+L_{\textup{ori}}+L_{\textup{joi}}+L_{\textup{conf}}+L_{\textup{aux}}。前四项分别为类别、位置、尺寸、朝向损失,后三项是可选的,分别为联合损失(如角点损失)、置信度损失和辅助损失。


        分类损失:通常使用focal损失,相比交叉熵损失更关注困难样本的分类,从而提高性能。


        位置损失:基于特征提升或数据提升的方法通常使用L1/SmoothL1/L2损失回归位置(以L1损失为例)。


L_{\textup{loc}}=\sum_{i\in\{x,y,z\}}\left \| loc_i-loc_i^\ast \right \|_1


其中带\ast表示真值,否则为预测值。通常回归的是与给定锚框的相对偏差而非绝对位置。


        基于结果提升的方法通常使用2D位置损失(与前式类似)和深度损失:


L_{\textup{loc}}=L_{\textup{loc}_{\textup{2D}}}+L_{\textup{depth}}


        深度估计是3D检测的关键,故重点考察。


        (1)不确定性建模:



        一些工作在深度估计子任务中建立异方差偶然不确定性模型,即网络同时预测深度d和标准差\sigma[d,\sigma]=f^w(x)。然后通过固定拉普拉斯似然值来建模不确定性。深度估计损失如下:


L_{\textup{depth}}=\frac{\sqrt{2}}{\sigma}\left \| d-d^\ast \right \|_1+\log\sigma


        类似地,对于高斯似然值:


L_{\textup{depth}}=\frac{1}{2\sigma^2}\left \| d-d^\ast \right \|_2+\frac{1}{2}\log\sigma^2


        理论上该损失函数可用于任何回归任务。


        该不确定性可进一步用于置信度归一化和后处理。


        (2)离散化:离散化方法通常输出深度分布而非单个值,可用于特征提升。



  • 单目深度估计网络DORN将深度离散化为区间,将深度估计视为顺序回归任务。
  • 还有方法仅将深度估计视为区间分类任务。

        尺寸损失和位置损失类似。



  • 有方法计算每一类物体的平均尺寸[H,W,L]作为锚框,估计残差偏移量。
  • 还有方法将尺寸表达为[He^{\delta_h},We^{\delta_w},Le^{\delta_l}],其中[{\delta_h},{\delta_w},{\delta_l}]是CNN关于尺寸的输出,可在指数空间中优化参数。
  • 由于不同维度的尺寸误差对IoU的影响率不同,可根据3D IoU的偏导数动态调整损失函数中的权重,并使该项损失的绝对值与原来(无权重时)相同。

        朝向损失:主流方法是先分类再回归而非直接回归朝向角。



  • 可将角度空间分重叠的稀疏区间或无重叠的密集区间。
  • 还有方法将角度回归分成4个区间,然后使用两个分类器即轴分类和朝向分类器,确定角度范围。最后直接在角度范围内回归残差角的正弦/余弦值。


        联合损失:使用一个损失项联合优化位置、尺寸、朝向。


        (1)角点损失:


L_{\textup{corner}}=\sum_{i=1}^8\left \| P_k-P_k^\ast \right \|_1


其中P_k为3D边界框的第k个角点坐标。


        (2)分离角点损失:每次仅对一项(位置、尺寸和朝向之一)使用预测值,其余两项使用真值,重复对位置、尺寸和朝向计算角点损失。这种方法可以解开各项的相互关系。


        注意该方法可以用于其余包含多项计算的指标如IoU。


        置信度损失:估计置信度的基本方法类似2D检测,直接使用类别置信度。



FCOS 3D仿照FCOS,估计每个目标的centerness,并使用其归一化置信度。


        但这些方法得到的置信度更适用于表达2D边界框。



  • 有方法使用2D提案估计3D置信度p_{3D|2D},对应的真值为p^\ast_{3D|2D}=e^{-\frac{1}{T}L(B,B^\ast)},其中T为温度参数,L(B,B^\ast)为分离角点损失。最终的3D置信度为p_{3D}=p_{3D|2D}\cdot p_{2D}
  • 后来的改进是使用L(B,B^\ast)的归一化排序作为p^\ast_{3D|2D},得到相对3D置信度,比前面的绝对3D置信度更优。
  • 还有方法使用深度置信度p_{\textup{depth}}代替p_{3D|2D},即使用预测的深度不确定性\sigma归一化为e^{-\sigma}作为深度置信度。

        辅助损失


        (1)密集深度损失:虽然密集深度估计在多数网络中不必要,但这样做可提高性能。如对于特征提升方法,可帮助对齐2D空间和3D空间;密集深度可以为CNN提供空间线索。


        (2)2D/3D一致性损失:基于 3D边界框的投影应与2D边界框紧密匹配 这一几何先验。


        (3)其它损失:如与其他任务联合训练时,其他任务的损失可视为3D检测的辅助损失。


5.4 后处理


        得到结果后,后处理方法用于移除冗余检测结果或细化检测结果。


5.4.1 非最大抑制(NMS)


        传统NMS:一般检测结果会出现多个边界框包含同一物体,NMS用于去除冗余检测,使得一个物体仅被一个边界框包含。基本思想就是仅选择置信度最高的边界框,与其有高IoU的其余边界框均被去掉。



        NMS的变体



  • Soft NMS:减小高重叠率的边界框置信度分数,而非丢弃它们。
  • IoU指导NMS:由于存在分类分数和边界框质量的不匹配性,有方法使用估计的IoU值来代替NMS算法中的置信度分数来指导NMS。
  • 深度指导NMS:使用估计的深度不确定性归一化置信度分数s,即s/\sigma_{depth}
  • 加权NMS:由于非最大置信度的边界框可能有高定位质量,因此将高重叠率的边界框加权平均得到最终边界框。权重为w_i=s_i\times \textup{IoU}(b_m,b_i)

b_m=\sum_i \frac{w_i}{\sum_i w_i}\cdot b_i


该方法也可视为后优化方法。


  • Softer NMS:类似加权NMS,但改变平均方法。建立高斯分布下边界框的每一项参数的不确定性,平均规则仅与IoU和不确定性相关。
  • 自适应NMS:对不同密度的物体,动态设置NMS的阈值。

        其余方法



  • 可微NMS:可由NMS后的结果计算损失函数。
  • 全局NMS:对于多视角图像构成的全景数据集,NMS也需要从重叠图像区域中去除重复检测。

5.4.2 后优化


        通过建立几何约束来进一步细化CNN输出的结果。



  • 有方法通过2D-3D一致性来微调朝向角。即寻找当前朝向角邻域内使2D-3D一致性最大的值(3D边界框的投影与2D边界框相似度最大时的值)。
  • 另一方法是通过3D关键点和2D关键点的一对一匹配来实现后优化。生成2D关键点(如边界框角点)标注,然后使用2D关键点在3D检测器中估计最终结果。在3D空间恢复角点,并投影到图像,通过最小化成对像素的距离(高斯-牛顿算法或Levenberg-Marquardt算法)来修正参数。
  • 还有方法使用物体级别的逐对约束,将相邻物体视为物体对,并使用CNN估计物体对的中点。通过物体对的对齐和预测的中点来微调位置。同时,估计与位置相关项的不确定性,作为后优化时优化目标的权重。


6 使用辅助数据


        由于图像缺乏深度信息,为了得到更精确的边界框,可以引入额外数据,提取与RGB互补的特征。


6.1 CAD模型


6.1.1 自动标注


        自动标注是CAD模型的主要应用。可自动生成更细粒度的标注,提供更多监督信号。


        关键点:在CAD模型上定义一系列关键点。寻找每个物体最相似的CAD模型,将关键点投影到图像上得到2D关键点。


        掩膜:将CAD模型投影到图像生成语义掩膜标注。实例掩膜可以通过深度排序来区分。




有方法使用掩膜视差图。即将CAD模型投影到立体相机的左右图像上,通过比较投影坐标生成视差。


        CAD模型细化:由于CAD模型与真实物体边界框并不完全匹配,有方法使用截断带符号距离函数或可微渲染来微调CAD模型以匹配边界框。


6.1.2 数据增广


        与复制粘贴增广方法类似,使用高质量渲染的CAD模型增广图像,得到更真实的、物体姿态更丰富的合成图像。


6.2 激光雷达信号


        本节介绍仅在训练阶段使用激光雷达信号的图像3D检测模型。


6.2.1 激光雷达信号作为监督


        使用激光雷达生成深度标注:通过将激光雷达点投影到图像平面,得到相应像素的深度值;也可使用深度补全生成密集深度图。


        使用激光雷达生成掩膜标注:通过判断激光雷达点是否在边界框内来获取标签,然后通过投影到图像得到掩膜。


        在训练阶段提供额外指导:使用激光雷达网络作为教师网络,使用知识蒸馏方法将学到的空间知识转移到图像网络。



  • 例如前面提到的特征模仿。
  • MonoDistill将激光雷达点云投影到图像,然后使用与图像网络相同的模型进行处理。然后用知识蒸馏将特征层面和结果层面的知识从激光雷达网络转移到图像网络。

        使用GAN实现数据提升:生成器将图像表达转化为3D表达,判别器通过与真实激光雷达比较来判断3D数据是否由图像生成。真实激光雷达仅在训练阶段作为判别器的输入,推断时不再需要判别器,从而不需要真实激光雷达数据。


6.2.2 使用稀疏激光雷达信号进行深度修正


        仅基于单目或立体图像的深度估计准确率不够高。



Pseudo-LiDAR++使用激光雷达信号修正上述系统误差,且仅需很少的激光雷达点。


6.3 外部数据


        使用额外的训练数据来提高神经网络的表达能力,减轻过拟合。


6.3.1 使用额外数据进行深度估计


        KITTI Depth、DDAD15M、Scene Flow(合成、立体图像)数据集为预训练深度估计网络常用的数据集。


        数据泄漏:KITTI Depth和KITTI 3D中的数据存在重叠。使用前者预训练深度估计网络后用后者训练3D检测网络存在数据泄漏问题。


6.3.2 使用无标签数据进行半监督学习


        现有数据集通常仅在关键帧上进行标注,存在大量无标注数据。



有方法提出用基于激光雷达的模型在关键帧上训练,然后为无标签帧生成伪标签,再使用带伪标签的数据训练图像3D检测器。该方法需要激光雷达辅助信号。


6.3.3 其他



  • 可在CityScapes训练分割器,再在KITTI Stereo上微调,最后在3D检测器训练时为训练图像预测实例掩膜辅助检测。
  • 部分需要自车运动估计的方法,可从KITTI原始数据中的GPS/IMU设备推导真实的自车运动用于训练网络。

6.4 时间序列



可分别估计各帧边界框,然后将相邻帧特征拼接,估计相机的自运动。然后使用3D卡尔曼滤波器,联合考虑自车运动和物体运动,更新估计的边界框。该方法也可视为后处理,且可同时在无需速度标签的情况下预测物体速度。


6.5 立体图像对


        通常用于生成更精确的深度图或是丰富特征图(通过特征融合、注意力机制或建立更好的特征表达(如cost volume))。


6.6 讨论


        多数现有方法使用至少一种辅助数据。


        基于立体图像的方法性能比其余方法高很多。


        使用时序数据进行检测的方法还很少。



7 更多讨论


        指标:目前的AP指标在给出FP时的惩罚大于缺失TP时的惩罚;应该让漏检的惩罚大于定位误差带来的惩罚。此外没有区分不同距离物体重要性的能力。


        精度与速度:目前的方法主要关注精度。如基于伪激光雷达的方法中,深度估计器的推断时间很长,不能满足实施需求,即使该方法有精度的提升。


7.3 与基于激光雷达方法的比较


        总体性能:以MonoDIS和PointPillars为例,两者在KITTI上的性能有巨大差距,而在nuScenes上则比较接近(这是由于KITTI激光雷达分辨率更高、主要关注汽车的检测、且评估指标更关注定位精度)。


        详细性能:在nuScenes下,可看出:类别上PointPillars对大型物体的检测有优势,而MonoDIS对有孔洞的或细长的物体检测有优势;定位上,PointPillars更准确;尺寸估计上,PointPillars比MonoDIS略低;PointPillars可精确估计瞬时速度;MonoDIS对属性的识别更准确。


        泛化性:MonoDIS在夜晚的性能下降比PointPillars严重得多,虽然两者均有显著下降。



8 未来方向


        深度估计:改进方法;将深度估计与3D检测联合训练。


        半监督/自监督学习



如可微渲染模块使得输入的RGB图像为唯一监督来源。


        多模态:不同模态有不同优势,融合多种模态能提高性能。但目前关于其余模态如雷达和热摄像机的研究很少。


        时间序列:时序数据可用于提高检测性能、减轻监督要求(如已被证明可实现深度估计的自监督学习)、更容易地估计速度。


        泛化性:目前的图像3D检测泛化性差,一个主要原因是现有方法大多假设相机内参不变,而另一原因是许多方法基于数据集特定的先验知识。