0. 简介

借助多种输入模态的信息,基于传感器融合的算法通常优于单模态。具有互补语义和深度信息的相机和激光雷达是复杂驾驶环境中的典型传感器配置。然而,对于大多数相机和激光雷达融合的算法,传感器的标定将极大地影响性能。具体来说,检测算法通常需要多个传感器之间的精确几何关系作为输入,并且默认传感器的时间戳是同步的。《SST-Calib: Simultaneous Spatial-Temporal Parameter Calibration between LIDAR and Camera》一文,提出了一种基于分割的框架来联合估计相机激光雷达套件校准中的几何参数和时间参数。

1. 主要贡献

这项工作提出了一个自动驾驶平台上激光雷达和相机之间的联合时空校准框架。所提出的框架的输入是相机和激光雷达帧的序列。这里,每个传感器模态都通过任意的语义分割网络进行处理,可以根据可用的训练数据进行选择。其次,将分割的LIDAR点云投影到语义图像上,计算新设计的双向对准损失,用于几何参数回归。不仅限于点对像素的损失,我们还对语义像素进行了点对点损失的下采样。估计两者之间的时间延迟,我们从两个连续的图像中估计视觉里程计,并预测用于匹配的偏移点云。本文贡献如下:

1、为激光雷达相机传感器套件提出了一种联合时空标定算法;

2、设计双向损失是为了在几何参数回归中获得更稳健的性能;

3、将时间参数与视觉里程计相结合,以估计传感器之间的时间延迟。

2. 主要方法

所提出的校准方法的工作流程如图1所示。校准过程包括用于空间初始猜测的静态空间参数校准模块和用于双参数估计的联合时空参数校准模块

所提算法的输入是一个点云扫描P_k ∈ \mathbb{R}^{3×N_p},以及两个连续的RGB图像{I_{k+δ}, I_{k+δ−1}} ∈ \mathbb{Z}^{N_h×N_w×3}。其中N_p是扫描中的点数,N_hN_w是图像的尺寸。算法的目标是估计几何关系的6自由度{R, t}(其中R ∈\mathbb{R}^{3×3},t ∈ \mathbb{R}^3)和P_kI_{k+δ}之间的时间延迟δ ∈\mathbb{R}

为了实现这一目标,我们首先通过任意语义分割算法处理 P_k I_{k+δ},以获得语义掩码P_{m,k}I_{m,k+δ}。然后,利用粗略测量或采样得到的初始外参猜测{R_{init}, t_{init}} 和已知的内参K ∈ \mathbb{R}^{3×3}将激光雷达点云投影到相机图像平面上。通过找到点到像素和像素到点的最近邻,计算它们之间的欧氏距离,这是优化算法的损失函数

第一次优化迭代(静态空间参数校准模块)将在车辆速度几乎为0的帧上进行。静态空间参数校准给出了旋转和平移的初始估计{\hat{R}^{static},\hat{t}^{static}}。这个估计将被用作联合时空参数校准的初始猜测和正则化参考。

其次,对于动态场景,我们从视觉里程计中估计I_{k+δ}I_{k+δ−1}之间的时间信息,该里程计将预测两个相机帧之间的速度\hat{v}_k ∈ \mathbb{R}^3。在这里,P_kI_{k+δ}之间的平移偏移可以表示为t_{δ,k} = \hat{v}_k · δ。我们将\hat{v}_k作为优化的一部分,并估计\hat{δ}{\hat{R}, \hat{t}}

图1:所提出的校准方法的工作流程

2.1 语义分割

通过现成的语义分割模块,所提出的方法可以适用于具有语义标签的任何数据集。在本文中,我们分别使用SqueezeSegV3[26]和SDC-net[27]进行点云和图像的语义分割。考虑到城市环境中车辆的频繁出现,在这项工作中,我们只使用车辆类别进行语义分割。将这些语义分割模块应用于输入,我们得到语义掩码P_{m,k}I_{m,k+δ}

2.2 点云投影

为了计算语义损失,我们首先将点p_{i,m,k} ∈ P_{m,k}(p_{i,m,k} ∈ \mathbb{R}^3)的语义掩码投影到二维图像平面上。根据经典的相机模型[28],我们可以通过以下方式实现投影

在这里,pu_{i,m,k}pv_{i,m,k}是投影点\tilde{p}_{i,m,k}∈\mathbb{R}^2的图像坐标。

2.3 双向损失(重点内容)

\tilde{p}_{1,m,k}…\tilde{p}_{n_p,m,k}成为在相机视野内的一组投影的LIDAR点。现在对于投影点 \tilde{p}_{i,m,k},让q_{j,m,k+δ}∈I_{m,k+δ} 成为相同类别的最近邻像素。然后,可以如下计算第k 帧上的单向点到像素(点到图像)语义对齐损失

在这里,损失是根据每个投影点计算的。图2a展示了点到像素损失计算的过程。正如[10]所示,通过最小化这个损失函数,我们可以使得投影点云与具有相同语义标签的像素很好地重叠。因此,最小化这个损失函数可以使我们得到正确的\hat{E}_{static} = {\hat{R}_ {static}, \hat{t}_{static}}估计。然而,当外参矩阵的初始猜测与真值显著不同时,最近邻匹配并不一定能给出大多数配对的适当匹配结果,并且一些重要像素的信息将被丢弃。因此,最小化单向损失会陷入不适当的局部最小值。

图2:双向投影演示:这里,蓝色圆圈对应投影点,橙色方块代表图像像素。黄色方块突出显示了下采样的像素。

为了避免信息的丢失,我们提出了一个双向损失,也利用了像素到点(图像到点)最近邻匹配(图2b)。考虑到一个图像中有太多像素需要实时匹配,我们对像素进行了下采样以进行像素到点匹配。设{\tilde{q}_{1,m,k+δ}…\tilde{q}_{n_i,m,k+δ}} ⊂ I_{m,k+δ}为下采样像素的集合。现在对于像素\tilde{q}_{i,m,k+δ},\tilde{p}_{j,m,k} ∈ P_{m,k}是最近邻的投影点。那么,第k帧上的像素到点语义对齐损失可以计算如下:

在这里,损失是针对每个采样像素计算的。然后,第l次迭代的双向语义对齐损失可以表示如下,

在优化迭代的第l次迭代中,\frac{n_p}{n_i}是归一化项,w_l ∈ R是权重。当w_l较小时,优化器倾向于将投影点投影到图像掩码内以最小化L_{p^2i,k,l}。当wl较大时,优化器倾向于将图像掩码包含在投影点聚类中以最小化L_{i^2p,k,l}。因此,在优化迭代过程中改变w_l的值可以避免陷入局部最小值,并且优化解决方案将引导我们获得更好的下一次迭代的最佳最近邻匹配。因此,仅优化双向损失函数将为联合校准提供更精细的猜测\hat{E}_{static} = {\hat{R}_{static},\hat{t}_{static}}

2.4 联合时空校准

在联合校准之前,我们使用视觉里程计提取两个连续RGB图像{I_{k+δ}, I_{k+δ−1}}之间的速度\hat{v}_k。本文中使用的视觉里程计基于稀疏光流[29]进行FAST特征跟踪,并使用Nister的5点算法与RANSAC[30]进行本质矩阵估计。

由于存在移动的自车和异步的传感器套件,即使使用了地面真实几何校准参数,从方程(2)得到的投影点云也永远无法与相应的像素匹配。为了补偿这种时间延迟,我们需要修改投影方程如下,

pu_{i,m,k,\hat{δ}}pv_{i,m,k,\hat{δ}}是通过\hat{δ}\hat{v}_k进行补偿的投影点的图像坐标。因此,我们可以通过在第l次迭代中最小化修改的双向损失来估计空间和时间参数。

这里,β是正则化项,将估计结果靠近初始猜测。λ_1λ_2分别是平移和旋转的正则化系数。