论文题目:PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

一、整体介绍

这篇论文所提出的网络模型都很简洁,作者的文笔也很清晰,所以我们就不废话了,都在图里了

图中A、B、C、D、E都标好了,我们逐个讲解就是了

A)使用PointNet提取点云的特征,包括全局特征和单个点的特征

B)使用ResNet提取图像特征

C)全局特征和单个点特征一起融合,预测边界框,该方法在文章中被称为“dense”

D)只融合全局特征,预测边界框,该方法在文章中被称为“global”

E)就是边界框喽

有的细心的读者会问,为啥要有C和D两个结构嘞?

其实实际使用中,作者只用了C这一个结构,D的存在只是为了和它做对比,通过对比实验效果证明在网络中加入单个点的特征会更有效。

二、细节补充

下面补充一些细节吧

  1. 对PointNet的改进

主要包括两方面:

1)去掉了batch normalization层,作者认为能够边界框的预测精度

2)把T-net改成了旋转矩阵Rc

2. 对比了两种损失函数

这两种损失函数是:

1)有监督的损失函数

2)无监督的损失函数

三、实验结果

最后看看实验结果,从论文里我们能够看出,这个作者喜欢在解决一个问题的时候提出多个方法,然后通过实验结果来对比他们的好坏,虽然最后只会选择一个,但是其他方法作为对比放在那里会更有说服力。

下面我们先看看作者都列出了哪些对比选项:

1)final:网络用dense(还记得dense和global吗,不记得就网上翻哦),损失函数用无监督

2)dense:网络用dense,损失函数用有监督

3)dense-no-im:它应该叫denso no image,谜底就在谜面上,就是dense+有监督,但是不输入图像,只用点云

4)global:就是global呀

5)global-no-im:global不加图像

6)rgb-d:这个就有意思了,它把PointNet用一个“generic CNN”替换掉,把输入改成rgb-d的彩色深度图,用来对比

下面就给出实验结果

这张表内容太多了,我们得分析一下,然后给出结论才行:

1)global和global-no-im对比,说明图像有用(只在mod和hard中,不清楚easy为啥更差)

2)global和dense对比,说明单点的特征有用

3)dense和final对比,说明无监督损失函数比有监督损失函数好

4)final(all-class)和MV3D对比,各有优劣吧,easy和mod更好,但是hard更差