一、机器人领域前沿方向

  1. 具身智能与垂直大模型:指拥有自主感知、交互和行动能力的智能体,能够与环境进行实时互动,从而实现对环境的理解和适应。核心技术包括:智能体环境感知与建模、智能体自主决策与规划、人机交互、群控协作、机器学习与强化学习等技术。

  2. 人形与四足仿生机器人:指受生物学原理和生物体结构启发,设计和制造的机器人,以模仿生物的运动、行为和外貌,实现更自然、更适应性强的性能。包括四足机器人、人形机器人、仿鱼水下机器人、仿生扑翼机器人等。

  3. 三维感知模型与多模态信息融合:将来自不同传感器和数据源的多种信息进行整合,可全面、准确地理解环境的特征。融合信息涵盖图像、点云、声音等不同类型的数据。核心技术包括:结构光和立体视觉、三维物体检测和分割、多模态特征提取、融合模型设计等。

  1. 机器人新型核心零部件与灵巧操作:伴随着MEMS、传感器等技术的快速发展,视觉、力觉传感器、高速/高功率的微小型电机/液压驱动器作为机器人实现智能化、数字化、柔性化的“敲门砖”,逐渐成为新一代机器人重要核心零部件。

  2. 脑机接口、生肌电一体化与微纳机器人:脑机接口是一种直接连接人类或动物大脑与外部设备,实现脑与设备之间信息交流的技术。生机电一体化是通过将生物体的神经信息获取、处理和传递的机制与电子技术相结合,创造出更紧密连接人体和机器的交互模式。微纳机器人:具备微小、精准、靶向、低损伤、超高精度可控等优点,被认为是未来对抗人体疾病的理想武器之一。核心技术包括:DNA折纸技术、微纳操作、亚微米级微操作台、智能化细胞克隆、新材料与微电子技术等。

  3. 医疗与康复机器人:医疗机器人通过结合机器人技术和医疗专业知识,为医生提供更精确、稳定和精细的手术控制,从而改善手术过程,减少创伤和恢复时间,同时也为医生提供更多的信息。在骨科手术、脑外科手术、穿刺介入、牙科、眼科、可穿戴式等医疗操作中得以广泛运用。康复机器人凭借先进的传感技术和精确的运动控制,可协助偏瘫患者恢复运动能力,或满足永久性损伤患者日常生活需求,提升人们的生活质量。

  4. 商业服务机器人:商业服务机器人主要应用于无人配送、无人巴士/出租、道路清洁、无人巡检等服务场景,具有智能化程度高、运维成本低、可靠性高等特点。室内商业服务机器人主要应用于室内环境中的导航服务、商业清洁、餐饮配送、无人售货、无人餐厅等服务场景。核心技术包括:环境感知、地图构建、定位与路径规划、动态识别、实时避障、机器视觉、柔顺抓取、人机交互、智能决策与控制等。

  5. 机器人操作系统/云平台:机器人操作系统包括硬件抽象、底层设备控制、常用功能实现、进程间消息和数据包管理等功能。根据不同行业需求,衍生出不同场景的机器人操作系统,如面向教育科研、商业服务、无人驾驶、工业智能等场景的操作系统或平台。云服务机器人是指将机器人的核心计算和智能部分部署在云端服务器,借助云计算技术提供更大的计算能力和资源,以实现更强大、更高效的数据处理和应用。“云端大脑+本地机体”或“云端服务”机器人将成为规模化推广与应用的重要模式之一。核心技术包括:机器人操作系统内核及通信协议栈、机器人运动控制与动态轨迹规划、机器人自学习、分布式计算、服务化架构、服务器监控与管理等。

  6. 群体机器人技术:群体机器人技术是指多台机器人在一个团队或群体中协同工作、交流和协作的技术。机器人可通过相互通信、信息共享和协同行动实现集体智能,以完成复杂任务和目标。核心技术包括:群体动力学建模、群体仿真、感知和信息共享、定位与导航、通信协议和拓扑、任务分配与协作等。

  7. 特殊场景服役机器人---军事、消防、农业、核工业、太空等领域:特殊场景服役机器人是指在特定环境或情况下执行任务的机器人,需考虑特殊环境下的安全性、稳定性、通讯能力以及适应性,在消防救援、电力勘测、农业、建筑、核工业、反恐防暴、国防安全、空间探测等领域具有巨大需求。核心技术包括:特种材料、防水、防爆、防辐射、极压适应、水下通信、生物相容性、极端温度适应、威慑和防卫等。

 二、具身(Embodied AI)多模态感知领域的发展-集群智能感知决策

        AI可分为六大子领域: 计算机视觉、自然语言理解与交流、认知与推理、机器人学、 博弈与伦理、机器学习。具身智能的概念,可以追溯到1950年,图灵在论文《Computing Machinery and Intelligence》中,提出机器像人一样能和环境交互感知,自主规划、决策、行动,并具备执行能力,是AI的终极形态。大语言模型和传统机器学习的区别,就在于泛化能力强,在复杂任务理解、连续对话、零样本推理等方向有了突破进展。这一突破,让机器人的理解力、连续决策力、人机交互能力,有了全新的解决思路。大模型时代,大模型作为机器人的“大脑”,多模态作为机器人的“小脑”,模型的训练和测试与云服务相结合,可以在云上虚拟仿真场景下,进行端到端的实时训练与测试,快速完成端侧迭代与开发,这就大大加速了具身智能体的进化速度。具身 AI 技术条件逐渐成熟:各路大模型逐渐成熟;计算机视觉给具身智能提供了处理视觉信号的能力;计算机图形学开发的物理仿真环境给具身智能提供了真实物理世界的替代,大大加快了学习的速度并降低了成本;自然语言给具身智能带来了与人类交流、从自然文本中学习的可能;认知科学进一步帮助具身智能体理解人类、构建认知和价值。

        目前,诸多大厂已在具身智能领域进行布局,如工业制造、仓储物流、监控侦测、环境探索、应急救援、集群作战等。谷歌发布史上最大通才模型 PaLM-E;微软探索如何将 ChatGPT 扩展到机器人领域;阿里巴巴-千问大模型正在实验接入工业机器人等。未来可进一步关注目前可用大模型进行改造的硬件机器人类型及应用场景。1.对话为主的服务机器人;2.工业机器人;3.复杂场景下的人形机器人。

三、大模型驱动的多模态集群机器人的前沿研究方向

目前,大模型驱动的多模态集群机器人的前沿研究方向包括但不限于以下几个方面:

  1. 感知与认知:研究如何通过融合多种感知模态(如视觉、声音、力觉等)来获取更全面、准确的环境信息,并进行高级的认知和理解。包括目标检测与识别、场景理解、情感识别等。

  2. 交互与协作:研究如何实现机器人与人类、其他机器人或环境之间的有效交互与协作。包括自然语言处理、人机界面设计、协同控制、协同决策等。

  3. 自主导航与路径规划:研究如何通过融合多模态的感知信息,实现机器人的自主导航和路径规划。包括地图构建、定位与导航、路径规划与避障等。

  4. 学习与适应:研究如何通过深度学习、迁移学习、增强学习等方法,使机器人能够从数据中学习并适应不同的环境和任务。包括迁移学习、增量学习、在线学习等。

  5. 安全与可靠性:研究如何确保机器人在多模态环境中的安全和可靠性。包括故障检测与恢复、冗余设计、安全规范与标准等。

  6. 人类因素与伦理问题:研究如何考虑机器人与人类之间的互动、隐私保护、伦理问题等。包括人机界面设计、道德决策、隐私保护等。

集群机器人协同制造技术将颠覆现有装备制造模式,在航空航天、海洋舰船、轨道交通等领域具有很大的应用价值,可应用领域包括:

  1. 海量数据高效传输与计算、大范围全场景精准感知、大规模动态调度与规划、多机协同制造与自主控制。挑战:海量信息实时计算、多模态精准感知、多任务高效协同制造。

  2. 无人机蜂群(模仿鸟类迁徙)、仿鱼群机器人(蜂群筑巢)、粒子群机器人(蚁群搬运)、细胞群机器人(鱼群捕食)。

  3. 群体信息交互共享(传算一体化架构),群体信息素感知(多模态信息感知),合作博弈演化(集群调度规划),生物群体协作(集群协同控制)。

  4. 多目标优化决策(强化学习)、多机器人运动规划、分布式协作控制。 场景三维信息获取、三维特征提取、深度学习网络识别、目标三维姿态重建等。

         

       具身智能包括 3 个模块:具身感知(Perception)、具身想象(Imagination)、具身执行(Execution)。具身感知:包括全概念感知和具身交互感知。全概念感知是指能够知道我们所操作的这个世界模型(world model)的各种各样的与操作相关的知识,包括外形、结构、语义,以及 48 个真实世界关节体类别等等(AKB-48大规模真实世界关节体知识库 48类真实世界关节体 2037个物体建模)。具身交互感知是指作交互时,除了视觉,还有触觉等各种内容交互的感知。

         

       目前实现具身智能主要有两种路线:一种谷歌、伯克利等为代表的,寻找一个端到端的技术路径,通过一个超大模型就让机器人完成识别环境、分解任务、执行操作等所有工作。如2023年3月谷歌推出的PaLM-E,就是一种多模态具身视觉语言模型(VLM),让机器人可以基于大模型来理解图像、语言等数据,执行复杂的指令,而无需重新训练。加州大学伯克利分校的LM Nav,则通过视觉模型、语言模型、视觉语言模型 CLIP等三个大模型,让机器人在不看地图的情况下按照语言指令到达目的地。Koushil Sreenath则致力于推动硬件本体、运动小脑、决策大脑三部分融合,让各种四足、双足,以及人形机器人在真实世界中灵活地运动。但是超大模型耗时漫长,距离产业可用还比较遥远,成本昂贵,产业客户未必能够接受。另一种英伟达及大量工业机器人厂商为代表的,不同任务通过不同模型来实现,分别让机器人学习概念并指挥行动,把所有的指令分解执行,通过大模型来完成自动化调度和协作,比如语言大模型来学习对话、视觉大模型来识别地图、多模态大模型来完成肢体驱动。这种方式从成本和可行性上能更快落地。

      具身智能目前还停留在语言、视觉这两个经典的AI任务领域,可做的方向包括1.多模态推理(task specification能力=多模态输入+输出);2.基于环境闭环反馈的纠错机制(optimal planning)-agent与环境交互反馈+强化学习方式微调多模态LLM=实现通用闭环推理机制;3.可信赖任务规划(更易于连接底层controller)。可用的数据集(需要Robotics任务覆盖更广的可信规划模型):Robo-Instruct数据集,覆盖3k+家居、办公常用机器人任务。

四、一些机器人公司在做的机器人及研究方向

  1.  波士顿动力(Boston Dynamics):足式机器人Spot、物流机器人Stretch和人形机器人Atlas等都是具身大模型机器人。

波士顿动力正在做机器人功能性和表达性相结合的研究,包含四个研究领域(认知AI、运动AI、先进硬件设计和伦理道德)。最新研究方向包括:(1)观察-理解-实践项目,运动能力和认知能力相结合。Eg.机器人观察人类的生产线行为,模仿人类跳舞,实践,无需手动编程;场景识别(工作)、导航、理解人类任务、使用工具;感知汽车、零部件、人类行为等。消费级应用:教机器人做自己常做的菜。(2)检查-诊断-修复项目(医疗,核辐射修复,石油钻井平台)。Eg.检查设备工作是否正常、智能诊断、修复;修理家用电器。(3)灵巧的移动操作能力项目。(4)伦理道德项目,机器人的法律与政策、技术与设计、社会规范、市场力量。

 

 

 

  1.  ABB:(1)立体仓库;(2)机器人视觉应用:①机器人引导:物品挑拣、箱式挑拣、码垛拆垛、装配指导、拾捡和放置;②质量检验:装配检测、几何分析、缺陷检测;③导航和地图绘制:人机安全、AGV导航、防撞;编程:(3)RAPID编程(ABB所属,系统代码和应用代码模块),Wizard(可视化编程),引导式编程(机器人示教),自主路径规划;(4)工业机器人:物料搬运、高精度装配、点焊、激光焊、涂胶、机加工。

      3. 机器人研究所(Robotics Institute):该研究所隶属于美国卡内基梅隆大学,是全球最早和最著名的机器人研究机构之一,在具身大模型机器人领域有着广泛的研究和应用(智能制造、自动驾驶汽车、太空相关机器人、医疗机器人、纳米机器、计算机视觉和图形以及人形机器人)。https://www.ri.cmu.edu/research/robots/

     4. 机器人技术研究所(Institute of Robotics and Intelligent Systems):该研究所隶属于瑞士联邦理工学院(ETH Zurich),是欧洲领先的机器人研究机构之一,主要研究领域包括移动医疗、感知、运动系统、AI、移动平台等。https://www.iris.ethz.ch/student-projects/by-lab.html

      5.特斯拉人形机器人Optimus:Optimus已经可以在车间灵活行走、抓取物体,已经拥有环境探索与记忆、电机转矩控制能力、基于人类跟踪运动的AI训练以及物体操纵能力,且已打通了FSD(全自动驾驶(Full Self-Driving)系统)底层模块,实现了一定程度的算法复用。

      6.达阀机器人:该公司建立了以云端大脑和网络安全为基础之云端智能机器人架构,其研发领域围绕着云端融合智能、高速安全网络和安全智能终端和机器人控制技术等。基于海睿AGI平台和海量机器人数据积累,达闼训练出了业界首个机器人多模态人工智能大模型RobotGPT(为实现机器人在复杂应用场景下的多模态行为而提供的交互生成型AI大模型)。

  1. 小米:仿生四足机器人CyberDog2(开源)。

五、具身多模态大模型进展

  1. LM-Nav:9 UCBerkeley发布LM-Nav模型,用自然语言指令实现机器人导航。《Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action》

  2. Saycan:2022 Robotics at Google 提出“Saycan”算法。机器人充当语言模型的“手和眼睛”,而语言模型提供有关任务的高级语义知识,在这种模式下,机器人能够完成包含 16 个步骤的长任务,理解复杂的高级指令,机器人还了解了操作范围以及周围环境的限制。

《Do As I Can, Not AsI Say:Grounding Language in Robotic Affordances》

  1. VIMA:2022 英伟达发布VIMA(1)可以根据视觉文本提示执行任务,例如“重新排列对象以匹配此场景”;(2)可以学习概念并采取相应的行动,例如“这是一个小部件”、“那是一个东西”,然后“把这个小部件放在那个东西里”。VIMA 在 Nvidia AI 上运行,其数字孪生在 3D 开发和模拟平台 Nvidia Omniverse 中运行。https://vimalabs.github.io/

  2. BC-Z:2022 google发布多模态(语言视频)模型,conditioned的策略函数学习。https://arxiv.org/pdf/2202.02005.pdf

  3. Chatgpt:2 微软发布自然语言指令控制的Chatgpt应用机器人。《Design Principles and Model Abilities》探索如何将ChatGPT 扩展到机器人领域,从而让人类用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。在研究中,研究人员展示了多个 ChatGPT 解决机器人难题的示例,以及在空中和导航等领域的复杂机器人部署。在任务结束后,人类使用自然语言反馈关于结果的质量和安全性,给出评价和修改意见,而机器人内置的 ChatGPT 还能够自己修改代码优化功能。

  4. 千问大模型:4 阿里巴巴发布千问大模型接入工业机器人,以自然语言远程指挥机器人工作。

  5. PaLM-E(RG-2):7 谷歌发布大模型RG-2,机器人执行“捡起灭绝的动物玩具”指令。PaLM-E-562B 集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),是目前已知的最大的视觉-语言模型。 作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索 PaLM-E 在现实世界场景中的更多应用,例如家庭自动化或工业机器人。机器人的大模型包含 LLM (大语言 模型) 、VLM (视觉-语言模型) 、VNM (视觉导航模型)。谷歌在 LM-Nav 的研究中提到,LLM+VLM+VNM 三个模型相互结合,从自然语言(冗余口语化描述)到文本(地标的字符串)到图像(根据文本找图像中的物体),能够最终生成机器人的路径规划。以此行为模式为基础,机器人能进行人机互动,同时实现一定程度的“随机应变”。

 

       问题:1.在传感器图像和文本 prompt 输入的处理上,PaLM-E 只是将 VLM 与 LLM 简单拼合,做隐式建模。前者输出的是抽象等级很低的像素级的特征,后者输出的是抽象等级很高的自然语言级别的特征,二者直接拼合会带来不匹配的问题,导致模型的泛化能力非常有限。2.模型接收自然语言和图像作为输入,输出机器人运动指令(底盘位置和机械臂末端位置)。模型是采用模仿学习的方式训练出来,而模仿学习本质上属于监督学习,因此无法在海量无标注数据上学习。

  1. VoxPoser:7 李飞飞发布VoxPoser用于生成机械臂运动规划轨迹,实现零样本的日常操作任务轨迹合成,并执行任务“打开抽屉,小心花瓶”。

六、大模型驱动多模态集群机器人面临的挑战

     挑战/问题:1.数据的挑战,具身智能的数据,只能从与物理世界的交互中获得,具有很大的隐私性、高成本、敏感性,不能批量生产,这就对能力优化迭代造成了限制。2.具身智能的机器人的安全性要求较高。(具身智能目前看来依然是大厂的游戏?)3.从人形机器人的角度看,市场需求并不像我们想象地庞大。在工业领域,功能各异的专业机器人已经占据着大部分使用场景,人形机器人显得十分鸡肋。在服务领域,人形机器人并不如人们想象地智能,市场需求仍待进一步开发。4.成本问题,尤其是三大核心零部件——减速器、伺服电机及控制器的成本,仍需等待产业链进一步发展。(手机终端始终是个人助理的最大载体)

七、其他

  1.目前开源的模型:

      ChatGPT for Robotics:https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/

      LM-Nav:https://sites.google.com/view/lmnav

     PromptCraft-Robotics:https://github.com/microsoft/PromptCraft-Robotics

     LATTE: https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/robot-language/

    Autonomous Navigation Modules:https://www.cmu-exploration.com/

    RoboAgent:https://robopen.github.io/

    EmbodiedGPT:https://github.com/OpenGVLab/EmbodiedGPT

    VIMA: https://vimalabs.github.io/

 2.机器人领域可发的会议 期刊(不含传统CV领域,蓝色为会议 红色为期刊):

 ScienceRobotics /CoRL > ICRA  >IJRR>JFR>  IEEE(TMECH)>IEEE(TRO)>IEEE(RAM)>IROS>RAS>RSS>Auton. Robot

参考文献:

   《“十四五”机器人产业发展规划》

   《“机器人+”应用行动实施方案》

    2023世界机器人大会

   “视觉求索”文章

   “机器之心”公众号

   https://www.zhihu.com/question/266477032