0. 简介

多视角聚合技术有望克服多目标检测和跟踪中的遮挡和漏检问题。最近的多视角检测和三维物体检测方法通过将所有视角投影到地面平面上,并在鸟瞰图中进行检测,取得了巨大的性能提升。《EarlyBird: Early-Fusion for Multi-View Tracking in the Bird’s Eye View》研究了在鸟瞰图中进行跟踪是否也能在多目标多摄像头跟踪中带来下一次性能突破。目前大多数多视角跟踪方法在每个视角上执行检测和跟踪任务,并使用基于图的方法在每个视角上进行行人关联。这种空间关联已经通过在鸟瞰图中检测每个行人一次来解决,只剩下时间关联的问题。对于时间关联,我们展示了如何为每个检测学习强大的重新识别(re-ID)特征。当前代码也已经在Github上开源了

1. 主要贡献

  1. 本文在鸟瞰图中引入了早期融合跟踪,并采用了简单但强大的re-ID关联策略

  2. 本文为BEV特征引入了更强大的解码器架构,从而改善了本文的跟踪结果和检测

  3. 在本文的实验中,本文定性和定量地验证了本文的方法相对于最近相关方法的有效性,并通过 +4.6 MOTA 和 +5.6 IDF1 提高了 Wildtrack 跟踪的SOTA。

2. 整体框架

我们在图2中提供了EarlyBird的全面概述。它从输入图像开始,经过增强处理后,输入到编码器网络中,生成我们的图像特征。图像特征的大小是输入图像的四分之一。然后,将所有摄像头的图像特征投影到地面平面,并堆叠到BEV空间中。接下来,BEV空间在垂直维度上进行降维处理。最后,将BEV特征输入到解码器网络中。图像特征和BEV特征都有用于中心和偏移检测的独立头部,但共享一个用于重新识别预测的头部。

图2. 我们方法的概述。输入视图被编码,生成的相机特征被投影到地面平面上。然后将投影特征堆叠和聚合,得到BEV特征。对于图像特征,预测盒子中心以指导BEV中的占用检测。此外,我们训练了一个re-ID特征,该特征既受相机特征的引导,也受BEV特征的引导。然后使用检测和相应的re-ID特征将检测关联成轨迹片段。

3. 编码器

我们的方法假设从S个相机获取的RGB输入图像是同步的,输入大小为3 × H_i × W_i。我们使用ResNet或Swin Transformer网络对图像进行特征编码,使用网络的三个块,每个块将输入下采样2倍。我们的目标是将图像仅缩小4倍,因此我们对每个层的输出特征进行上采样和拼接,直到获得C_f × H_f × W_f的输出,其中H_f = H_i/4,W_f = W_i/4,C_f = 128

4. 投影

投影是这种方法的核心部分,因为它在图像视图和BEV视图之间提供了一个无需参数的链接。根据[22],我们使用透视投影将图像特征投影到地面平面上。使用针孔相机模型[15],计算3D位置(x,y,z)和2D图像像素坐标(u,v)之间的转换关系。

其中s是一个实数缩放因子,P = K [R|t]是一个3×4的透视变换矩阵,K是内参相机矩阵,[R|t]是3×4的外参参数矩阵。方程(1)描述了与3D世界中每个像素(u,v)对应的射线。在我们的方法中,我们选择将所有像素投影到地平面z = 0上,然后投影可以简化为:

其中,P_0表示从P中去除第三列的3×3透视变换矩阵。我们使用公式(2)将所有S个相机的特征投影到预定义大小为[H_g, W_g]的地平面网格上。地平面网格的大小取决于观察和注释区域的大小。每个网格位置代表一个10厘米×10厘米的区域,由于内存限制,通过4倍下采样注释网格。来自S个相机的所有堆叠的具有C通道的特征图给出了大小为S×C_f×H_g×W_g的BEV特征。

5. 聚合与解码器

聚合阶段的目标是将所有S个相机的特征组合成一个单一的特征,即减少BEV特征图的S维度。我们沿着通道维度连接所有特征图,如S × C_f × H_g × W_g → (S · C_f ) × H_g × W_g,得到一个高维度的BEV特征图。通过两个2D卷积,我们将这个高维度的BEV特征减少到我们期望的通道大小C_g = 128
在聚合之后,我们将BEV特征输入到一个ResNet-18解码器中。解码器的目标是引入一个大的地面平面的感受野。透视投影引入的畸变会导致行人特征从地面上的实际位置扩散出来。其他方法[21, 27, 32, 39]将这种畸变视为对检测准确性有害,并提出了复杂的解决方案,如可变形变换器[21]或ROI投影[27]。我们的解码器提供了一个简单的解决方案,可以在地面平面上聚合位置和识别特征
在ResNet的每一层中,BEV特征被2倍下采样。然后,我们使用金字塔网络架构将每一层的输出上采样到前一个更大的输出的大小。然后,两个特征在通道维度上进行连接,并应用2D卷积。特征金字塔产生的解码输出具有与C_g × H_g × W_g输入相同的形状,但对于每个网格位置具有更高的感受野。

6. 头部和损失

为了得到POM的最终预测结果,我们在BEV特征图上使用预测头部。检测架构遵循CenterNet [48],我们添加了一个用于中心检测的头部,将特征降低到1 × H_g × W_g,生成一个热力图或POM在地面平面上。我们还添加了一个用于偏移预测的头部,帮助更准确地预测位置,因为它减轻了来自地面网格的量化误差。偏移具有(x, y)分量,形状为1 × H_g × W_g。每个头部通过应用一个3 × 3卷积(具有C_g = 128通道),然后是一个激活层和一个1 × 1卷积来实现最终的目标大小。中心头部使用Focal Loss进行训练,偏移头部使用L1 Loss进行训练。
我们还为图像特征添加了检测头部,用于预测2D边界框的中心和边界框底部中心的估计脚位置,帮助图像特征在每个行人的位置上具有更高的激活。根据FairMOT [46]的方法,我们添加了一个不确定性项,以自动平衡单任务损失,然后将它们相加。

6.1 重识别

重识别头部旨在生成可以区分个体行人的特征。理想情况下,不同行人之间的相似度应该小于相同行人之间的相似度。为了实现这一点,我们通过分类任务和度量学习任务来学习重新识别特征。首先,我们在地面平面C_{id,g}×H_g×W_g(其中C_{id} = 64)和图像特征C_{id,f} × H_f × W_f上应用一个生成重新识别特征的头部。然后,我们在两个平面上的中心检测位置提取特征。我们使用一个线性层创建一个类别身份分布,并使用交叉熵损失将其与真实类别身份进行训练。正如前面讨论的,透视变换对地面平面引入了强烈的畸变。因此,我们从图像视角监督重新识别特征。除了交叉熵损失外,我们还应用SupCon Loss [25],它将属于同一类别身份的特征拉在一起,同时将来自不同类别的样本的特征推开。

7. 推理(重点内容)

在推理阶段,我们使用BEV中心头部预测的POM,并通过简单的3×3最大池化操作(如[47]中所述)进行非极大值抑制(NMS)。然后,我们仅提取大于0.4阈值的检测结果。我们还提取了估计的行人中心的身份嵌入。在下一节中,我们将讨论如何使用re-ID特征将检测到的框关联起来。

在线关联。我们采用MOTDT [7]描述的分层在线数据关联方法,但不同的是,我们只跟踪从鸟瞰图中看到的行人中心,而不是框。我们的第一步是基于初始时间步检测到的中心初始化一组轨迹片段。随着每个后续时间步骤的处理,我们使用两阶段匹配策略将检测到的中心与现有的轨迹片段连接起来。

在第一阶段,我们使用卡尔曼滤波器[24]和re-ID特征的组合来实现初始跟踪结果。具体而言,我们使用卡尔曼滤波器来预测下一帧的轨迹位置,并计算预测中心与检测到的中心之间的马氏距离(Dm),类似于DeepSORT方法[43]。然后,我们将马氏距离与基于re-ID特征计算的余弦距离结合起来,使用公式D = λD_r + (1 − λ)D_m计算出一个单一的距离度量(D),其中λ是预先确定的权重参数,在我们的实验中设置为0.98。如果马氏距离超过一定阈值,我们将其手动设置为无穷大,这与JDE协议[42]一致,并防止跟踪展现不合理运动的轨迹。然后,我们使用匈牙利算法和匹配阈值τ_1 = 0.4来完成第一阶段的匹配。

第二阶段涉及尝试根据各自框的中心距离匹配未检测到的框和轨迹片段,匹配阈值增加到τ_2 = 2.5米。我们在每个时间步骤中持续更新轨迹片段的外观特征,以考虑外观的潜在变化。任何未匹配的中心被分类为新的轨迹,未匹配的轨迹片段将保留10个时间步骤,以便在稍后重新出现时进行识别。

8. 参考链接

https://mp.weixin.qq.com/s/mBOj9uTqTbTb9iy3OMkdZQ