0. 简介

在自动驾驶汽车(AV)的感知任务中,数据驱动的方法往往优于传统方法。这促使我们开发了一种基于数据的方法来从激光雷达测量中计算占用网格地图(OGM)。我们的方法扩展了之前的工作,使得估计的环境表示现在包含一个额外的层,用于标记被动态物体占据的单元格。早期的解决方案只能区分自由和占用的单元格。障碍物是否可以移动的信息对于规划AV的行为非常重要。《Data-Driven Occupancy Grid Mapping using Synthetic and Real-World Data*》提出了两种生成训练数据的方法。一种方法扩展了我们以前关于使用合成训练数据的工作,以便生成具有上述三种单元状态的OGM。另一种方法使用nuScenes[1]数据集的手动注释创建训练数据。我们在未见过的真实世界数据上对两个模型的性能进行定量分析。相关代码可以在Github中找到。

1. 主要贡献

  1. 本研究进一步发展了我们先前的方法,该方法能够预测具有“空闲”、“静态占用”和“动态占用”三种单元状态的占据网格图(OGMs)。
  2. 我们在真实世界的nuScenes数据集[1]上进行了定量性能分析。本文比较了在合成数据上训练的模型与基于数据集手工注解生成标签训练的模型的性能。
  3. 我们通过将这两种方法应用于我们的研究车辆之一,检验了它们对新传感器配置的适应能力。因此,我们提出了一种方法学,通过使用真实世界的数据集来发现仿真中的盲点,并提高在合成数据上训练得到的模型对真实世界测量数据的领域适应性。
  4. 通过开源我们的基准测试和评估算法,我们鼓励其他研究者与我们的方法进行比较,以促进该领域的发展。

2. 数据驱动的占据网格图绘制

我们将占据网格图绘制视为一个监督学习问题,并介绍了我们的神经网络架构以及生成训练数据的两种方法。一种方法使用仿真生成的合成数据,另一种方法使用手工注解数据集生成的标签。

2.1 网络架构

我们的网络架构基于PointPillars[28],该架构在激光雷达点云的目标检测中表现良好。我们使用相同的特征编码层和适配版本的CNN主干网络。预测头部被我们的证据预测头[6]替换,该预测头在本工作中扩展到三层,以包含可能的单元状态A ∈ Θ的证据。该模型使用Sensoy等人[22]提出的期望均方误差损失函数进行训练。

这个信念质量 b_A \in [0, 1] 被用于我们网络预测的证据占据栅格图(OGM)中。

2.2 来自模拟的合成训练数据

正如文献[6]中所述,我们使用VTD [26]在城市3D环境中创建模拟场景,包括静态障碍物(如交通灯、长凳、电线杆)以及动态对象(如行人、自行车、车辆)从大型车辆类型目录中选取。模拟的自我车辆(ego vehicle)在大小和类型上与用于记录测试数据集的车辆相似,并使用车辆动力学模型来实现,例如,在加速或转弯时的真实滚动和俯仰角。它配备了一个虚拟的激光雷达传感器,其位置与真实车辆相似。激光束通过在900个水平方向上的32个垂直层上使用光线投射来模拟,类似于真实传感器。第二个虚拟的激光雷达传感器具有相同的位置和视场,但使用3000个而不是32个垂直层来创建更密集的激光雷达点云。这些合成点云包含了关于反射源材料的信息,这被解释为对包含反射点及其周围单元格在标签OGM中占据状态的证据。与我们之前的方法[6]不同,只有在合法可行驶材料(如沥青、道路标记)上的反射贡献了一个信念质量b(F)=0.1,而所有在非可行驶材料(如人行道、建筑物)上的反射贡献了m(O_s)=0.1。通过使用德姆斯特组合规则(Dempster’s Rule of Combination)结合分配给一个单元格的所有信念质量,由于影响一个单元格的激光雷达射线密度降低,创建的栅格图中的不确定性随着从传感器的距离增加而增加。除此之外,所有被动态对象覆盖的单元格被分配了一个信念质量m(O_d)=\frac{1}{|C|}\sum_c m_c(O_s),其中C={c_i}是被对象占据的单元格集合。然而,不能从输入数据中推断出的信息不应该包含在标签中。因此,只有被至少20个模拟激光束击中的对象才被处理。图2a展示了这样一个训练样本。

图 2:训练样本是通过仿真和来自nuScenes数据集[1]生成的。一个样本由激光雷达点云(灰色)和一个占据栅格图(OGM)组成,其中绿色表示空闲的信念质量,红色表示静态占据,蓝色表示动态占据的单元格。

2.3 来自注释的训练数据

我们的第二种方法使用手动注释的nuScenes数据集[1]来创建由激光雷达点云和OGM组成的训练样本。虽然原始的激光雷达测量数据可以直接从数据集中获取,但OGM标签需要根据可用的注释生成。我们创建与前一方法相同大小和分辨率的OGM,并为所有被至少20个点在激光雷达点云中表示的对象覆盖的单元格分配一个信念质量 m(O_d) = 1.0。此外,nuScene的地图扩展被用来为所有被映射为可驾驶表面且没有被对象占据的单元格分配一个信念质量 m(F) = 1.0。所有其他单元格被分配一个信念质量 m(O_s) = 1.0。与前一方法一样,我们希望尊重可观测性,确保标签只包含可以从输入数据推断出的信息。使用从传感器到栅格边界的二维光线投射,所有位于静态或动态障碍物后面的单元格被分配最大不确定性 m(Θ) = 1,动态对象覆盖的所有单元格除外,因为假设如果它们在测量中至少被20个反射点表示,那么它们的大小可以从输入数据推断出来。这样一个标签的示例显示在图2b中。

图 3:两种方法都使用我们测试车辆上的Velodyne VLP32C激光雷达传感器数据进行了测试。预测左侧OGM的模型是使用新的合成数据训练的,而右侧OGM是由使用nuScenes数据集的注释训练的模型预测的。

3. 结论

本文提出了两种基于数据的方法,用于从激光雷达测量中进行占据栅格映射(OGM)。一种方法使用合成训练数据,另一种方法使用从nuScenes数据集[1]的手动注释生成的标签。在真实世界数据上的评估显示,这两种方法都能够预测出能区分静态和潜在动态障碍物,并考虑可观测性的证据OGM。定量分析表明,使用合成数据训练的模型在区分静态和动态障碍物方面的性能较低,而两种方法估计自由空间的精度都很高。然而,当使用另一种传感器模型在另一辆车上的激光雷达测量数据进行测试时,使用注释数据集训练的模型表现明显更差,而使用合成数据的方法可以轻松转移。通过在注释的真实世界数据上进行评估,可以识别出模拟的盲点,例如错误分类的静态和动态障碍物或道路布局。这些信息可以用来改进模拟,进一步缩小与现实世界的差距,以便为任意传感器配置生成合成训练数据。