关键词:Swarm RoboticsMulti-Robotmulti-agentheterogeneous robot teams异质机器人团队、Collective Perception, decision-making and execution集体感知决策执行、Order Reasoning(规划)顺序推理,task planning,A heterogeneous multi-robot system (HMRS)Multi-robot task allocation (MRTA)

111.png

一、集群机器人协作框架(平等协作/一主多次/顺序协同)

2023.9 Scalable Multi-Robot Collaboration with Large Language Models: Centralized or Decentralized Systems? LLM多机器人任务规划。四种多代理通信框架(集中式、分布式和两种混合式)在四种需要协调的多代理 2D 任务场景的任务成功率和效率。开源。

多机器人协作框架:混合式框架整体表现较佳,特别是框架2在四种任务下和机器人数量增加情况下都能获得较高成功率和协助效率。

集中式框架:所有机器人都由一个中心控制器进行控制和协调。特点是简单直接,但不易扩展,中心控制器的计算能力至为重要。

分布式框架:每个机器人独立作出决定,通过通信协调行动。特点是扩展性好,但协调复杂,容易出现不一致情况。

混合式框架1:部分机器人集中控制,部分机器人分布控制。结合了集中式和分布式的优点,但框架设计复杂。

混合式框架2:所有机器人分布控制,但通过一个协调模块进行通信和协调。相比框架1设计较为简单,同时保留了扩展性。

------------------------------------------------------------------------------------------------------

2023.11 Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for

Visual Question Answering VQA方向,将多agent分为Seeker(寻求者-原始问题答案)Responder(回应者-VLM处理得到的答案改进原答案)Integrator(整合者-整合两者的答案)

------------------------------------------------------------------------------------------------------

2023.10 Stance Detection with Collaborative Role-Infused LLM-Based Agents网络和社交媒体内容的立场分析,分为a linguistic expert(语言专家-语言分析理解)a domain specialist(领域专家-特定知识和术语)a social media veteran(社交媒体老手-社交媒体表达风格),多agent平等关系。-------------------------------------------------------------------------------------------------------

二、多机器人操作:

1. 综合内容:

2023.6 Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents机器人协作环境,多个不同属性和角色的智能代理共同高效地处理复杂任务。

------------------------------------------------------------------------------------------------------

JARVIS: A Neuro-Symbolic Commonsense Reasoning Framework for Conversational Embodied Agents VQA,三个对话式体现任务中,包括对话历史执行(EDH)、对话轨迹(TfD)和双代理任务完成(TATC)

------------------------------------------------------------------------------------------------------

2019 Cooperative heterogeneous multi-robot systems: A survey -提出了多机器人任务计划通常包含四个不同阶段:任务分解、联盟形成、任务分配和任务执行,并针对各阶段所使用的方法、算法、模型、典型模型的survey

------------------------------------------------------------------------------------------------------

2015 Multi-robot grasp planning for sequential assembly operations多机器人家具组装(sequential assembly operations)。传统算法,复杂操作问题分解为子问题和组合优化的思路。

222.png 

------------------------------------------------------------------------------------------------------

2005 博士论文On the evolution of autonomous time-based decision-making and communication in collective robotics集群机器人领域的自主时间决策和通信演化。

------------------------------------------------------------------------------------------------------

2024.1 Mobile ALOHA:Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation. Mobile ALOHA 基于ALOHA系统低成本的双手操纵装置的移动操作平台/操作系统(单agent但是含不同异质机器人和任务),它结合了ALOHA系统的双手操纵能力与移动底座的移动性。机器人能够执行复杂的移动操作任务做饭、椅子归位、擦桌子、放置物品、坐电梯、叠衣服等,同时保持低成本和易于操作的特点。

模仿学习使用了监督行为克隆(Supervised Behavior Cloning)的方法来训练机器人将机器人的关节位置和底座的速度作为动作向量,然后将这些动作向量与机器人的观察(包括摄像头图像和关节位置)结合起来,形成一个16维的动作向量。共同训练的方法Mobile ALOHA收集的数据与现有的静态ALOHA数据集结合起来进行训练。

开源且含详细部署步骤,硬件设备。

主页:https://mobile-aloha.github.io/ 工程代码:https://github.com/MarkFzp/mobile-aloha (动作)学习代码:https://github.com/MarkFzp/act-plus-plus数据集:https://drive.google.com/drive/folders/1FP5eakcxQrsHyiWBRDsMRvUfSxeykiDc

机器人硬件设备:

Part

 

Quantity

Link

Price

(per unit)

Robots本体

ViperX 300 Robot Arm 6DOF

2

https://www.trossenrobotics.com/viperx-300-robot-arm-6dof.aspx

$5,695.95

WidowX 250 Robot Arm 6DOF

2

https://www.trossenrobotics.com/widowx-250-robot-arm-6dof.aspx

$3,295.95

Tracer AGV

1

https://www.trossenrobotics.com/agilex-tracer-agv.aspx

$8,999.95

Onboard Compute计算单元

Lambda Labs Tensorbook 

1

https://lambdalabs.com/deep-learning/laptops/tensorbook

$2,399.00

Robot Frame底盘

4040 800mm x 8

4

https://a.co/d/2DOkaGT (2 pcs)

$42.29

4040 500mm x 6

2

https://a.co/d/8mc69EV (4 pcs)

$58.99

4040 400mm x 2

2

https://a.co/d/9LNXjQg (1 pcs)

$22.99

4040 300mm x 7

2

https://a.co/d/6vgSVEO (4 pcs)

$59.99

4040 L-shape connectors x 28

5

https://a.co/d/ddY3mIX (6 pcs)

$32.99

4040 T-shape connectors x 4

1

https://a.co/d/fFDfjsg (6 pcs)

$30.99

4040 45-degree corner connectors

1

https://a.co/d/1wijAh3 

$21.99

4040 Corner Bracket and T-Slot Sliding Nuts

2

https://a.co/d/fh7Gb8r 

$24.99

4040 caps

2

https://a.co/d/fT3s9Xh 

$9.81

M6 20mm

(for mounting robot)

1

https://a.co/d/7f22g7c 

$9.99

M6 T nuts for 4040

(for mounting robot)

2

https://a.co/d/aExH8IZ 

$14.16

Camera setup摄像头

Logitech C922x Pro Stream Webcam

4

https://a.co/d/hddyphF

 

$98.35

USB Hub

2

https://a.co/d/6oecHCf

$19.99

Power电源

Battery Pack

1

https://a.co/d/crLamne 

$699.00

600W DC Supply

1

https://a.co/d/85xFKlC 

$59.00

12V DC Cable

5

https://a.co/d/gHOeSD6 

$15.99

Fork Spade Connectors

1

https://a.co/d/aVE8b55 

$13.69

USB-A to Micro USB Cable

4

https://a.co/d/3Ndog7w 

$17.87

Wheel Odometry车轮里程计

DYNAMIXEL XL430-W250-T

2

https://www.robotis.us/dynamixel-xl430-w250-t/ 

$49.90

U2D2

1

https://www.robotis.us/u2d2/ 

$32.10

U2D2 Power Hub Board Set

1

https://www.robotis.us/u2d2-power-hub-board-set/ 

$19.00

Jumper Wire

1

https://a.co/d/3iTVNTc 

$9.99

Weights

1

https://a.co/d/6YiWAGv 

$14.65

Misc耗材

Rubber Band

1

https://a.co/d/1lpVha6

$9.99

Gripping Tape

1

https://a.co/d/iuDVBf4 

$54.14

Common equipments

Allen keys扳手

Allen keys

Allen keys

Allen keys

Hot glue gun胶枪

Hot glue gun

Hot glue gun

Hot glue gun

Total

$31,757.86

333.png 

2.任务规划(task planningtask decomposition分解\task allocation分配\task scheduling调度

2023.9 SMART-LLM: Smart Multi-Agent Robot Task Planning using Large Language Models使用LLM进行三个机器人(技能可相同也可有所侧重)的仿真环境复杂任务协作(并行分别做各自任务而非串行做同一复杂任务)开源且有环境部署步骤单个改进版LLM进行多机器人任务规划。创建AI2-THOR基准数据集评估LLM多机器人协作。https://github.com/SMARTlab-Purdue/SMART-LLM 实际环境中测试了协作导航。

步骤:1.任务分解(Task Decomposition):将机器人技能、物体和任务分解样本的提示、输入指令相结合,输入到LLM模型输出分解后的子任务。2.组建联盟(Coalition Formation):将机器人列表、环境中可用的物体、样本分解任务示例以及相应的联盟政策描述作为LLM的提示,输出任务的联盟政策(哪个/团队执行子任务)。3.分配任务(Task Allocation):将样本分解任务、联盟政策以及基于政策的任务分配计划的提示,发送到LLM输出任务分配计划。4.执行任务(Task Execution):根据任务分配计划生成各子任务的执行代码,发送给机器人执行。

------------------------------------------------------------------------------------------------------

2023.7 RoCo: Dialectic Multi-Robot Collaboration with Large Language Models zero-shot多机器人协作方法,利用LLMs进行高级任务协调和低级运动规划,对话式任务计划协调、反馈、改进。无碰撞运动规划。

开源简略环境部署、仿真环境多机器人/人机配合完成任务,真实环境单机器人操作任务。https://project-roco.github.io/ 机械臂选型6DoF UR5, 7DoF Franka, 20DoF Humanoid

步骤:1.RoCo为每个机器人搭建LLMs进行自然语言对话,讨论任务策略的。2.对话结束后LLM为每个机器人生成子任务计划(可选的任务空间路径点,无效计划的环境反馈),并以子任务计划的提议结束。3.多臂运动规划:经过验证的子任务计划生成各个机械臂运动规划器的目标配置(输出各机器人的运动轨迹)。

444.png

RoCoBench:含6个桌面操作的多机器人协作任务组件,并涵盖了需要不同机器人沟通和协调行为的协作场景。每个任务有三个关键属性:1. 任务分解:任务是否可以分解为可以并行完成(如制作三明治任务需要按正确顺序堆放食物)或按特定顺序完成的子任务(如Pack Grocery任务中的物体可以以任何顺序放入箱子)。2. 观察空间:每个机器人代理接收到的任务和环境信息的多少。三个任务提供了任务工作区的共享观察,而其他三个任务则具有更不对称的设置,机器人必须相互询问以交换知识。3. 工作空间重叠:操作机器人之间的接近程度;对每个任务进行了从低、中到高的排名,更高的重叠需要更谨慎的低级协调(如Move Rope任务需要一起操作同一个物体)。

555.png 

------------------------------------------------------------------------------------------------------

2020.11 Learning a decentralized multi-arm motion planner LSTM训练闭环分散式多臂运动规划器(同质homogeneous)。可线性扩展。

666.png 

步骤:1. 生成训练环境:随机生成静态或动态的多机械臂运动规划任务(含初始关节配置、目标姿态等信息)。2.RL:将任务公式化多agent强化学习问题,采用Independent Learning:独立学习+Soft Actor Critic算法,每个机械臂根据自己的观测和奖励学习策略(独立学习框架)。之后采用Soft Actor Critic算法进行离线优化,所有机械臂学习一个(熵最大化)随机策略来生成连续动作(空间),并共享同一个策略网络参数(不断更新,保留成功经验的参数),实现策略的分布式性(decentralized)(但在策略网络中每个agent只根据自己的观测信息(如位置、姿态等)作出决定,不与其他通信协调)。3.每个agent可以观测其他机械臂的状态避免碰撞。设计团队奖励函数,只有当所有机械臂都达到目标位置时才给予奖励。4.每个机械臂根据自身观测通过策略网络预测下一步动作,与环境交互执行闭环控制。根据难易程度(工作空间重叠度)逐步训练策略网络。失败任务提供BiRRT轨迹(专家演示样本)辅助探索,成功任务自主学习。5.使用LSTM将机械臂长状态序列编码,使得训练后的策略网络闭环控制。

开源且含详细的环境部署步骤。可在个人电脑CPU上复现

777.png

https://github.com/real-stanford/decentralized-multiarm?tab=readme-ov-file

Soft Actor Critic算法:SAC)算法是一种面向最大熵(策略随机性)强化学习开发的用于根据探索内容生成策略的off-policy算法(off-policy学习和执行使用不同策略的强化学习算法,on-policy则使用同一策略)。算法原理:环境生成一个新状态s-Actor网络根据状态s输出一个Learning efffcient multiagent cooperative visual exploration动作分布(深度强化学习DDPG则直接输出一个确定性动作)-从动作分布中采样得到一个随机动作a-执行动作a,观测新的状态s'和奖励r-将经验(s,a,r,s')存储在经验回放池-从回放池中随机采样一批经验,分别使用两个Q网络更新Q函数(反馈动作的奖励的期望值,用于评估动作好坏)-根据Q函数更新Actor网络,最大限度提高动作分布的期望回报-通过大量反复的交互和学习逐步优化ActorQ网络参数,使得动作分布能最大限度地提高累计回报,同时保持足够的熵来收集环境信息,协助找到真实环境最优策略。

------------------------------------------------------------------------------------------------------

2020 Visually-grounded planning without vision: Language models infer detailed plans from high-level instructions在虚拟家庭环境中虚拟机器人代理完成复杂、多步骤、自然语言指令任务。单agent,聚焦在用gpt2分解复杂任务。https://github.com/cognitiveailab/alfred-gpt2

MuSiQue多跳(某个推理步骤需要从另一个问题中获得答案)阅读理解数据集。2-4跳问题。MuSiQue-Answerable版本只包含可以回答的问题,在给定问题和最多20段文字上下文的情况下,识别答案和支持段落。MuSiQue-Full版本包含可以回答和无法回答的问题,首先判断问题是否可以从给定上下文中得到答案,如果可以,再识别答案和支持段落。

------------------------------------------------------------------------------------------------------

2022.6 Embodied multi-agent task planning from ambiguous instruction多机器人任务规划框架,利用外部知识源和动态感知(如远近、视觉范围受限、环境中没有的物体等原因导致任务分配不合理,则重新分配任务)到的视觉信息来解析高层次指令,分解后的任务动态分配给多个机器人;生成子目标进行导航;不开源。AI2-THOR开源3D环境模拟平台进行实验。多机器人任务规划基准数据集。

888.png

the hierarchical multi-agent framework for the embodied multi-agent task planning

999.png

步骤:(eg.清洗番茄并放在咖啡桌上)

场景编码模块:三个代理(A1,A2,A3)通过视觉传感器获得RGB-D图像。输入到Swin Transformer中提取语义点云,生成4米范围内的语义网格表示。输入的语义地图,通过训练场景编码器ScEr,输出三个语义地图特征向量(参考论文Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation)。2. 任务规划模块:(1) 任务分解-提取指令动作"清洗"和对象"番茄"利用语义地图特征预测隐含容器"水槽"。根据语义规则生成子任务序列为:"找到番茄""找到水槽""清洗番茄""找到咖啡桌"(2) 任务分配-根据A1A2A3当前语义地图特征分配子任务。A1:"找到番茄"A2:"找到水槽"A3:"找到咖啡桌"3. 语义通信模块:各代理利用三元组(动作、对象、容器)表示自己分配的子任务,并通过通信交换信息。 "(找到,番茄,空)"4. 任务执行:各agent利用子目标预测网络(用LSTM网络融合上一个子目标位置、语义地图特征向量、通信信息输入,提取子任务相关的语义特征,通过子目标导航演示数据训练网络(启发式算法在语义地图上生成最短路径到目标位置)预测下一步子目标位置)预测番茄位置并导航。A2找到水槽,A3找到咖啡桌。5. 动态调整:A1找到番茄后,语义地图更新。任务规划模块根据更新后的语义特征重新评估(A1离水槽较近,将"找到水槽"任务重新分配给A1)任务分解和分配结果,实现动态调整。

------------------------------------------------------------------------------------------------------

2019 Two body problem:Collaborative visual task completion.双机探索+协作抓取任务。通过像素数据学习协作问题。明确和隐式通信(非语言 如语气、肢体动作等隐含传达出的信息)在协作完成视觉任务具备优势。不开源。

001.png 

2020.1 A cordial sync: Going beyond marginal policies for multi-agent embodied tasks. 双机视觉探索+协作举电视机。多代理在每个时间步协调,联合动作策略。分散式agent进行探索+集中式通信进行协作。开源且含详细部署步骤。https://github.com/allenai/cordial-sync

------------------------------------------------------------------------------------------------------

三、多机器人导航:

多机器人路径规划方法可被分类为经典方法、启发式(heuristic)算法、仿生技术(bio-inspired techniques)和人工智能方法。  

2023.10 Co-NavGPT: Multi-Robot Cooperative Visual Semantic Navigation using Large Language Models LLM驱动多机器人室内导航,开源且含环境部署。

002.png

步骤:1. 构建地图:每个机器人根据RGB-D图像和其位置构建语义地图(障碍物、已探索区域、边界等语义信息),并整合到全局地图。2.全局规划:全局语义地图和机器人信息作为提示输入到LLMs进行全局规划,为每个机器人分配未探索的区域目标(区域位置)。3. 本地策略:根据目标每个机器人利用快速行进法(FMM)规划出从当前位置到目标位置的路径。之后执行局部策略,根据新的观测数据不断更新局部地图和目标,最终找到目标物体/构建好全局地图。

------------------------------------------------------------------------------------------------------

2022.11 Learning efffcient multiagent cooperative visual exploration. 

使用CNN进行多agent视觉合作探索,多agent主动神经SLAM(MAANS)。神经SLAM+地图修正与合并+agent空间规划器+局部规划器与局部政策.开源https://github.com/zoeyuchao/maans

003.png 

步骤:1.神经SLAM模块:输入(当前RGB观测、姿态传感器信号和历史输出)-通过监督学习训练-输出(更新后的二维重建地图和当前姿态估计)给每个agent

地图修正器和地图合并器:修正器将神经SLAM模块输出的地图置于同一坐标系,合并器组合(最大池化)各agent的历史本地地图形成全局地图。4.本地策略器基于视觉输入和到子目标的相对空间距离和角度输出最终导航动作,本地规划器利用FMM算法在全局地图上规划路径长期目标上产生子目标序列。5.多智能体空间规划器(MSP):通过CNN提取每个agent地图特征,利用网络架构空间团队变换器对特征进行融合,捕获空间关系和agent间交互,根据特征生成每个agent的长期全局目标,实现基于视觉信号的多agent协作探索任务。6.策略蒸馏:为每个训练场景训练专家网络,之后通过学习一个学生网络来蒸馏不同场景专家网络的知识,测量其在新场景和不同团队规模下的泛化能力。

------------------------------------------------------------------------------------------------------

2020 Multirobot task and motion planning with subtask dependencies提出了特定任务的任务分解方法。多机器人集成任务和运动规划算法TMP-CBS(多机器人路径查找(MRPF)算法)。

TMP-CBS算法:1. 低级搜索统一的任务图表示机器人可用性和任务语义,将潜在子任务开始/结束位置作为节点,路径作为边连接。通过在任务图上搜索,得到任务分解和初步运动计划。2. 高级搜索使用基于冲突的搜索树(CT)来迭代构建一组运输任务的最优解决方案。CT节点包含任务分解、分配和对应的运动计划。算法检测分配冲突和运动冲突,并将其作为CT节点的子节点来解决。

如果运动冲突,会为每个任务-机器人对创建子节点,并添加运动约束重新进行低级搜索。算法通过两级搜索框架解决分配冲突和运动冲突找到相对于当前机器人道路图的最优多机器人任务计划解决方案。

------------------------------------------------------------------------------------------------------

2022 Multi-Agent Embodied Visual Semantic Navigation with Scene Prior Knowledge

------------------------------------------------------------------------------------------------------

2021.1 Collaborative visual navigation.强化学习解决多agent视觉导航的方法

大规模多agent视觉导航(MAVN)任务3D数据集CollaVN。分散式agent+配备内存进行通信(增强记忆通信框架)。开源https://github.com/Haiyang-W/MAVN

CollaVN:包含三种协作视觉导航任务CommonGoal(多个agent如何合作导航到同一个目标位置)SpecificGoal(多agent在有不同目标的情况下如何进行通信协作)Ad-hoCoop(检验多agent是否能够适应不同数量队友(训练集不变,测试集数量改变)的环境变化的通用策略)。

------------------------------------------------------------------------------------------------------

四、无人机:

2023.12 Swarm-GPT: Combining Large Language Models withSafe Motion Planning for Robot Choreography DesignLLM控制群体无人机根据人类指令和音乐编舞。

2023.11 CLIPSwarm: Converting text into formations of robots自然语言描述生成机器人集群位置。

2023.11 Stein Variational Belief Propagation for Multi-Robot Coordination 多机器人室内导航、协调规划