0. 简介

最近几年随着自动驾驶行业的火热,对高精地图的需求也日渐庞大。由于高精(HD)地图的相关可扩展性成本,需要不断的维护,并涉及繁琐的人工标签。这就导致需要大量的人力来做这样的事情,而是否存在一些比较简单的办法来完成道路、人行道、人行横道和车道等静态地标进行自动和准确的标注,这就是科研界几年中所需要关心的内容,本文主要围绕着这篇IROS 2020的文章《Probabilistic Semantic Mapping for Urban Autonomous Driving Applications》,其实这篇文章并没有特别多的核心算法,但是向读者指明了一条使用激光和视觉的高精地图的自动标注方法。通过在二维图像上进行语义分割,将语义标签与点云地图联系起来,以便在世界范围内准确定位,并利用混淆矩阵表述,从语义点云中构建鸟瞰的概率语义地图。在城市环境中收集的数据的实验表明,这个模型能够预测大多数道路特征,并且可以扩展为自动将道路特征纳入高清地图,具有潜在的未来工作方向。

[video(video-CGh48fR2-1665914172561)(type-bilibili)(url-https://player.bilibili.com/player.html?aid=731703904)(image-https://img-blog.csdnimg.cn/img_convert/5829e30dbaa26f0eb9f7f2b433abcaaa.jpeg)(title-IROS2020: Probabilistic Semantic Mapping for Urban Autonomous Vehicle Applicatio)]

1. 算法流程

在HD地图生成过程中,从数据中提取语义属性是最费时的工作。该方案的重点是利用16线激光雷达构建的稠密点云地图和来自深度神经网络的最新语义标记图像,并通过与自动驾驶车辆上的离线真实高精地图的比较,表明该模型能够识别道路中的语义特征,并在三维空间中进行精确定位。

这是整个流程的示意图,主要由三部分组成:语义分割、语义关联和语义地图构建。我们使用语义分割网络来预测2D图像上的语义标签,然后将语义标签与增密的3D点云相关联。然后,我们应用概率投影来捕获分配给每个网格的标签的分布。下面我们从三个方向来看问题。

1.1 图像语义分割

对于语义分割而言,文中提到使用DeepLabV3Plus网络,并从二维图像中提取语义信息。语义分割可以将视觉输入分为不同的语义可解释类别,最近两年有更多更新的方法可以被替换,这部分的难度不是很大。

文中的语义分割网络是在Mapillary vista数据集中训练的。该数据集在无人驾驶场景中提供了大量具有66种不同标签的像素级语义分割图像。通过删除在驾驶环境中不重要的标签(如雪),并将具有相似语义的标签合并在一起(如斑马线和人行横道),将标签减少为19个类别。这个决定是基于观察到某些类不太可能出现在我们的测试环境中。所有的训练标签及其对应的颜色如表1所示。

1.2 点云语义关联

给定一幅语义图像,估计语义像素数据的相对深度可以帮助我们重建带有语义标签的3D场景。然而,这些信息通常是不可得的。基于多视图几何的深度估计需要显著特征,在道路或复杂的光照条件下容易出现错误。相比之下,激光雷达传感器可以很容易地捕捉物体的深度信息,但由于它们通常配备很少的光学通道(例如16),由于其稀疏的分辨率,很难实时推断底层几何形状。为缓解这个问题,利用厘米级定位来提取先前构建的密集点云图的小而密集的区域。然后将这些较小的区域投影到语义分割后的图像中,以检索深度信息。构建这样一个密集的点地图可以自动完成,只需要驾车通过该区域一次,因此比人工标记更便宜。

在通过厘米级定位后,可以利用相机内部参数以及相机与激光雷达之间的相对变换,将点云数据投影到二维图像空间。然后使用最近邻搜索对点云数据进行语义关联。利用PnP方法估计摄像机与激光雷达之间的相对变换,而相机的内部矩阵是由传统的棋盘法确定的。

1.3 语义地图构建

虽然带有语义标签的点云自然地保留了环境的3D几何形状,但场景的这种表示受到传感器测量噪声和微小语义标签波动的影响。为了解决这个问题,我们维护了一个局部或全局概率图,其中局部图可以提供自我载体周围的直接密集语义线索,全局图可以帮助自动化构建高清地图的过程。局部语义图和全局语义图都使用语义占有率网格,而主要区别是参照系。我们的定量比较是在全局框架下进行的。

局部概率图是由车辆车身框架(后轴)作为局部坐标系的鸟瞰表示。我们为给定的第i帧建立一个局部地图,原点由车辆当前时刻的姿态决定,并使用语义点云对其进行更新。只有当我们的新姿态和旧姿态的差异超过阈值时,我们才构建一个新的地图,并将前一个地图在全局坐标系中进行转换以考虑车辆运动。全局概率映射图直接在全局坐标系中操作的,不需要映射变换。下图显示了并排的视觉比较;其中顶部图像对应于局部坐标系的表示,底部图像对应于全局帧表示。

其中,语义占用网格具有高度H,宽度W和通道C。每个通道都对应真实场景中的一个语义类。构建语义点云时,我们使用xy分量将其投影到网格上。并将该点的语义标签视为其最近单元格c_{ij}的观测语义标签。网格中的每个单元格覆盖物理世界的d × d正方形区域(米),其中d值是离散因子。

通过概率模型同时利用点云的语义信息和LiDAR强度信息来降低预测误差,增强了语义占用网格估计的鲁棒性。将所有通道的语义标签分布表示为S_t,观测到的语义标签表示为z_t,观测到的LiDAR强度表示为\mathcal{I}_t。因此,任务是根据我们过去的观察来估计S_t,即P (S_t|z_{1:t}, \mathcal{I}_{1:t})的概率分布。根据马尔可夫假设,假设观测到的语义标签和LiDAR强度是条件独立的,给定St,语义概率的更新规则为

其中Z是标准化因子。这里我们还假设P (S_t|z_{1:t−1},\mathcal{I}_{1:t−1})= P (S_{t−1}|z_{1:t−1},\mathcal{I}_{1:t−1})。我们用一个二维矩阵MP (z_t|S_t)进行建模,其中第i行第j列的一个元素表示标签i被预测为标签j的可能性。它表征了我们的预测置信度,以允许更准确的概率更新。我们将P(\mathcal{I}_t|S_t)建模为场景中每个类的反射率的函数。

激光雷达传感器的强度显示了现场不同的材料的反射率。例如,下图中的俯视图显示了BEV视角下的强度图。由于车道线被漆成白色,它们可以反射更高强度的光线,因此可以用阈值k进行分割。我们可以将其作为对场景布局进行推理的先决条件:它可以帮助在较差的照明条件下,语义分割无法捕获真实标签的情况。

1.4 实验车辆

我们的实验数据是由我们的实验自动驾驶汽车收集的。该车配备了16通道激光雷达和6个摄像头。摄像机设置为前面两个,两侧各一个,后面两个,如下图所示。在加州大学圣地亚哥分校的多个区域行驶时,来自左前摄像头、激光雷达和车辆位置的数据被记录下来用于实验。相机数据以大约13赫兹的频率传输,激光雷达以大约10赫兹的频率扫描。我们开车穿过校园,为城市驾驶场景收集数据——包括沿陡峭的山坡、十字路口和建筑工地等具有挑战性的场景。

2. 参考链接

https://blog.csdn.net/mcwbiubiubiu/article/details/112211364

https://mp.weixin.qq.com/s/6D-Md82xL79dnjGhoXglYg

https://blog.csdn.net/u013019296/article/details/111503551