VIO三相性与世界观室内ALL IN ONE 首先以此链接先对近期工作的视频做个正经的引流,完成得这么好的效果,仅仅是因为知乎限流1分钟以内的视频,导致整个浏览量不到300,让人非常不爽。

这套系统已经完成了,很快将正式发布,室外180米实测平移偏差也控制在了0.6%左右,最后1米上下徘徊,旋转无偏。标题其实和今天的文章关系不大,主要是梳理下稠密和稀疏的重点落地与应用。

先列一下最近的一些工作背景上的思考:

在接下来的 10 年,机器人融合融态感知即将迎来剧烈的变化,尤其是以视觉为主的融合融态感知,随着成本的降低与性能的提升,将广泛应用于导航面与操作面,为社会带来深远的变化。想象一台能为老年人完成 30+种养老服务任务并进行交流互动的 robots,在 5-10 年这个阶段不再是科幻。接下来 1-5 年内单任务/少任务/集群式机器人也将在我们的工业面和社会面广泛的被使用,不仅仅是特斯拉,DJI等。

但是我国在机器人领域其实与北美差距仍然很大,看似供应链强大,但大量机器人仍然 停留在中低端领域,先不提具体操作和任务面(离全面通过机器人内感知系统完成仍然有很大的距离),就以最基本的导航和定位面(SLAM)仍然高度依赖线扫雷达与固态雷达。以 SKYDIO 为例,DJI 作为龙头多年早已构筑了核心优势市场,但是 SKYDIO 仍然通过与 Nividia 与 CUDA 生态的深绑定,北美优秀高校专业人才,通过强大的 VIO 与其机体世界观构建技术开始了对 我国巨头“弯道”超车之旅。

SLAM 面首先应该极致的完成,这样各种机体才能真正进入任务面,进入自感知任务面后,我们才有机会真正在边缘端大量完成自感知多任务 Robots 系统。而这一块,将是未来真正的蓝海,同时机会属于中国。

目前我们的短板众多,首先就是通核 SOC 整体设计水准的低下:

  1. 高端通核 SOC 设计水准远低于 Nividia 与 Intel,缺乏生态,国内厂家普遍依赖 CUDA,高端通核在 V8.2 框架上的几家优秀厂家都有同类问题,部分普通厂家开始深卷 NPU 等整型矩阵乘法卷积器,天花板有限。

  2. 中端通核 SOC 普遍设计阉割或存在VI/VO短板,CPU/NPU/GPU/DSP 等均存在相当的设计缺陷, 仅适用于简单落地及应用。

  3. 低端 SOC/MCU 普遍缺乏 DSP 与 FPU 设计,离 STM32 等 MCU 中高端设计的距离较大, 系统整体耦合程度低效。

其次程序员平均水准虽然不错,但是顶尖人才匮乏,普遍擅长面向对象,面向函数开发, 底层开发设计能力不足,ECS开发人才稀缺并集中在游戏公司(如米哈游)。

只有软件/硬件/算法能力需全部拉通,我国的自感知多任务机器人才会得到真正蓬勃和广泛 的发展。

这也就是我们这18个月以来工作的意义和目的,接下来聊聊稀疏与稠密

稀疏篇:

1.稀疏最大的问题是没有好的世界观,所有的作业高度依赖重定位。

2.稀疏源自特征点法,稀疏的存在和能力的脆弱导致大量其他工作需要被耦合,如IMU紧耦合,轮速计耦合

3.稀疏如果落具体作业面,还需要增加更多的内感传感器,如单点雷达,如大面阵i-TOF。

4.稀疏在常态化运作中还需要结合NPU或松耦合的深度相机的能力去除动态目标物,用起来非常麻烦。

5.稀疏并非一无是处,稀疏VIO能够很好地控制和管理三相性:开销/鲁棒/精度,在外界干扰有限的情况下可以很好地工作,在特定场景下可以通过特征点向图像的逆反馈反手进入NPU实现一系列有意思的识别和行为判断。

6.稀疏可以进行收敛,成为半稠密/稠密系统的回环模块,以空间重定位辅助半稠密/稠密系统的运行。

7.无论ORBSLAM还是VINS,均可以以稀疏为骨干,构建稠密,但是三相性被破坏,处理难以实时。

稠密篇:

1.真正的稠密开销极高,三相性的第一条就不被满足。通常以离线方式运行,也有做得比较好的通过Local和Global实现,全局系统上主机的处理能力极强。图例是以稀疏构建稠密(来源于CSDN博主Darren_pty)

2.还有一种稠密是先以强力的装置,如激光雷达构建先验,再通过稀疏去匹配,在固定场景作业中,这是一种非常优秀的做法,点云的数据结构与存储调用的处理是一个难点。

3.第三种稠密,或者叫半稠密/半稀疏都可以,就是如下图或开始的链接中的效果了

这个实现常见的来源有DSO/ORBSLAM/LSD各种暴力深化,实现过程非常复杂就不多bb了,为了保持鲁棒性往往耦合IMU,这一类的方法具备几个巨大的优势:

(1)首先相对激光雷达,系统有非常强劲的视觉纹理的连贯处理能力,尤其是对高度类似的地表信息,可以建立罕见的物体或地表爬纹能力,远超激光雷达和深度相机。在草地,公里,石板甚至是有光的综合管廊(或增加补光,雪地或光滑地表失效),均存在着精确位姿定位的可能性,这是其他所有传感器都无法达到和实现的能力。按照目前的开发与实验经验,当单帧处理的点数量>1500个时,此类能力被很好的建立,数量压倒质量。

(2)其次,此类半稠密点云本身就构建了和激光雷达类似的点云形态VIO三相性与世界观室内ALL IN ONE,可以直接用于规划处理,拥有实时的世界观,整个规划工作变得更加类似自动驾驶,重定位的作用权重急剧下降。

(3)此类方法能够更好地通过各类几何方法构建更稠密的建图,同时也没有丢失深度信息向视觉信息的逆反馈能力。

(4)缺点是开销仍然很高,有DSP和FPU依赖。