专栏名称: 专知

专知，为人工智能从业者服务，提供专业可信的人工智能知识与技术服务，让认知协作更快更好！

具身人工智能中的生成式多智能体协作：系统性综述

专知 · 公众号 · · 2025-02-23 11:00

正文

具身多智能体系统（EMAS）因其在物流、机器人等领域解决复杂现实问题的潜力，吸引了越来越多的关注。近期基础模型的进展为生成型智能体提供了更丰富的沟通能力和自适应问题解决能力，开辟了新的方向。本综述系统性地探讨了EMAS如何从这些生成型能力中受益。我们提出了一个分类法，通过系统架构和具身方式对EMAS进行分类，重点强调协作如何跨越物理和虚拟环境。接着，我们分析了感知、规划、沟通和反馈等核心构件，展示了生成技术如何增强系统的鲁棒性和灵活性。通过具体实例，我们展示了将基础模型集成到具身多智能体框架中的变革性影响。最后，我们讨论了挑战和未来发展方向，强调了EMAS在重塑人工智能驱动协作领域的巨大潜力。

1 引言

具身多智能体系统（EMAS）因其在智能交通、物流和制造等领域的巨大潜力，吸引了越来越多的关注 [YJ+13, IS+18]。通过将物理具身（从自动驾驶车辆到机器人操作臂）与多智能体系统（MAS）[DKJ18] 集成，EMAS 提供了一种去中心化、协作的方法，能够高效地处理复杂任务。尽管这些优势显而易见，但设计和实现有效的 EMAS 仍然是一项非凡的挑战，通常需要对控制论的专业知识、广泛的训练数据以及精心设计的强化学习范式 [LB08, OD23]。

在传统的 MAS 中，智能体通过分配责任、共享状态信息并共同适应动态环境来协作 [DKJ18]。虽然这些原则在某些特定领域取得了显著成功，但传统方法在以下方面面临关键的局限性：难以推广到新任务 [MS+22]，难以扩展到大规模的智能体群体 [CTE+22]，以及应对突发环境变化 [WR04]。这些方法通常依赖于狭窄训练的模型，可能表现脆弱或仅限于特定领域 [YZ+23]。这些不足凸显了需要更加灵活和稳健的解决方案的紧迫性，这些解决方案能够在开放式和快速变化的具身场景中蓬勃发展。

近期基础模型（FMs，例如大型语言模型、大型模型或视觉语言模型（VLMs））[ZLL+24] 的突破为推进 MAS 向更加自适应和生成行为的发展开辟了新的途径。通过为智能体提供自然语言能力、情境推理以及生成新解决方案的能力，基于基础模型的 MAS 超越了纯信号驱动或强化学习框架中固有的局限性 [GCW+24, CLH+24, LP+24]。这些“生成型智能体”能够以语义丰富的方式进行沟通，与人类级别的流畅度协作，并能够迅速应对突发挑战，调整策略。因此，基于 FM 的智能体可能会彻底改变多智能体协作的方式——无论是在由具身设备组成的物理空间，还是在智能体共享抽象知识和任务的虚拟空间中。

在此背景下，EMAS 领域将能够从这些 FM 方面的最新进展中获益。通过将物理具身与生成型多模态智能结合，未来的系统可能会采用更广泛的设计空间，整合复杂的感知、高级语言和视觉推理能力，以及自适应决策能力。然而，现有文献中关于具身 AI 和多智能体系统的综述通常将这些领域视为孤立的，未能在它们的交集处进行系统性的探讨 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能体如何最好地融入 EMAS 的系统化视角仍在不断发展中。

本综述旨在提供对生成型多智能体协作在具身 AI 中现状的全面和结构化的分析，如图 1 所示。首先，在第 2 节中，我们提出了一种分类法，根据模型数量和具身类型对现有的 EMAS 解决方案进行分类，强调协作如何在物理智能体和纯粹虚拟语义环境中产生。接下来，在第 3 节中，我们探讨了多智能体协作的主要构建块——系统感知、规划、沟通和反馈，并分析了如何设计这些组件以利用基于 FM 的生成能力。超越理论视角，在第 4 节中，我们深入探讨了实践应用，展示了生成型多智能体协作如何增强不同具身场景中的功能。根据我们的了解，这是首次系统性地探讨 MAS、具身 AI 和基础模型的融合。最后，在第 5 节中，我们总结了开放的研究挑战，勾画了关键的未来发展方向，并讨论了 EMAS 对更广泛的 AI 和机器人领域的潜在影响。我们的目标是通过呈现这个迅速发展的领域的整体概述，来为研究人员、从业人员和利益相关者提供信息并激发灵感。

2 协作架构

在前一节中概述的关键挑战和机遇的基础上，本节介绍了具身多智能体系统（EMAS）中的协作架构，如图 2 所示。特别地，我们探讨了生成型多智能体系统如何利用外部协作（跨多个具身实体）或内部协作（在单一具身实体内多个基础模型之间）。我们还涵盖了结合这些策略的混合方法，以满足多样化的系统需求。我们的目标是提供一种结构化的理解，说明如何协调多智能体协作，以最大化适应性、可扩展性和任务一致性，尤其是在与基础模型（FM）集成时。

2.1 外部协作

在多个具身实体之间展开的协作场景中，我们称之为外部协作，智能体在物理或虚拟环境中互动，以实现共享的目标。借鉴长期以来的多机器人和传统多智能体系统（MAS）文献，外部协作可以通过集中式或去中心化策略组织。这些方法在可扩展性、通信开销以及全局控制与局部控制之间存在不同的权衡。

集中式架构

在集中式策略框架中，单一的统一模型控制多个机器人或智能体，提供集中式的任务分配和决策制定。该集中模型根据智能体的能力和系统目标分配任务，通过提供全局视角确保智能体之间的协调。已有研究探索了基于语言的任务分配方法 [LTW+24, OA+24, CYZ+24] 和基于代码的任务分配方法 [KVM24, ZQW+24]。

集中式模型还在决策制定中发挥关键作用，通过整合来自所有智能体的信息来做出最终决策，确保一致性。例如，[YKC23] 使用集中式模型来确定导航目标，[TXL+20] 使用它来进行基于 3D-CNN-LSTM 的互动问答，[GAZ+24] 使用它在多机器人系统中通过引导领导机器人行动来解决死锁问题。

集中控制策略通过使用单一模型进行任务分配和决策制定来确保协调。其优势包括任务的最优分配和一致的决策。然而，它可能受到系统复杂性、高计算需求以及在大规模或动态环境中的可扩展性问题的限制。

去中心化架构

在去中心化策略中，每个模型独立控制其相应的具身实体，从而提供更大的灵活性和可扩展性。早期的研究使用强化学习进行去中心化控制，但基础模型（FM）的兴起使得智能体能够自主处理多样化的任务 [CJ+24]，形成了更为先进的去中心化系统。

基础模型通过利用推理能力来增强去中心化系统，基于局部部分观察来改善个体决策。例如，[ZWL+24] 利用世界模型来辅助多智能体规划，在该模型中，每个个体通过世界模型预测其他智能体的行为，并推断自己的计划。类似地，[AF+23] 引入了一个辅助的心智理论推理基础模型来解释合作伙伴智能体的行动和需求，从而支持个体决策。

此外，凭借基础模型的推理和通信能力，基于FM的智能体表现出涌现的社交性。[CJ+23] 发现，当没有明确指导采用哪种策略时，FM驱动的智能体主要遵循平均策略，这代表了智能体之间的一种平等主义组织结构。其他研究 [GHL+24, CJ+24] 强调了团队中更为结构化角色的潜在好处。这表明，类似于人类的社会结构，FM智能体可以表现出涌现行为，通过适应组织框架来优化协作，从而增强它们在处理复杂任务时的集体能力。

2.2 内在协作

外在协作涉及多个机器人和具身实体之间的合作，而内在协作则发生在单一系统的内部结构中，该系统可能包含多个基础模型（FM）。这一概念与最近推动的各个FM模块之间的协作工作流程密切相关，这些模块各自专注于不同的角色，共同处理日益复杂的任务。这样的内部协调扩展了传统的多智能体协调概念，侧重于在单一具身体内进行集中的决策。

在这一工作流程中，每个FM承担特定的功能或角色，共同完成任务。研究已将这一范式应用于具身学习系统，例如 [QZL+24]，该系统使用规划者、部分处理器和执行者等模块来解决Minecraft沙盒中的任务，和 [SSY+24]，它将任务分解为观察者、规划者和执行者角色。LLaMAR [NO+24] 还采用了计划-行动-纠正-验证框架进行自我修正，无需预言机或模拟器。

内在协作可以通过提高规划准确性、安全性和适应性来提升系统功能。例如，[LY+23] 使用基于FM的快思维和慢思维进行协作计划生成和评估，而LLaMAC [ZMR+23] 则采用多个批评者和评估者来提供反馈并提高鲁棒性。

2.3 混合协作架构

在许多现实世界的应用中，严格区分外在协作和内在协作既不现实也没有优势。因此，混合协作架构结合了这些策略，利用了集中式、去中心化和内部FM工作流程的优势。

随着具身任务复杂性的增加，混合不同协作层次的灵活性——无论是在机器人之间，还是在智能体的内部结构中——变得越来越有价值。

内在协作通过模块化FM增强模型能力，并且可以应用于集中式和去中心化系统。例如，CoELA [ZDS+24] 使用五个模块——感知、记忆、通信、规划和执行——而 [YPY+24] 为去中心化机器人协作构建了具有观察、记忆和规划模块的智能体。集中式模型也可以使用模块化FM，例如 [WTL+24]，它使用任务和行动FM进行任务分配。

集中式和去中心化策略可以结合使用，不同阶段的任务可以采用不同的方法。受到多智能体强化学习（MARL）中的集中训练与去中心化执行（CTDE）框架的启发，[CYZ+24] 和 [ZC+24] 提出了集中规划与去中心化执行的方案，其中全球规划指导任务执行，最大化全球监督与地方自治之间的协同效应。

通过展示这些不同的架构，我们阐明了实践者如何在不同粒度和控制层级上有效地协调EMAS中的多智能体协作。下一节将基于这一架构视角，探讨如何设计关键的系统组件——感知、规划、通信和反馈——以利用基于FM的生成能力，进一步提升多智能体协作的鲁棒性和适应性。

3 推进协作功能

在第二节中，我们从结构层面探讨了如何协调多智能体协作，接下来我们将转向推动具身智能体之间有效团队合作的功能性构建模块。具体来说，我们重点介绍感知、规划、通信和反馈机制如何被设计来利用基础模型（FM）的生成能力。通过聚焦于这些关键模块，我们展示了EMAS解决方案如何更加稳健地解读物理环境、制定并适应计划、交换信息，并从自身行为以及环境中迭代学习。这种方法补充了前述的协作架构，提供了一个更细化的视角，以促进具身智能体之间的动态和上下文感知协作。

3.1 感知

尽管生成模型可以从文本和视觉中获取语义知识，但具身智能体必须主动感知并解读物理世界。这需要处理三维结构、动态条件和实时互动 [LCB+24]。因此，感知模块至关重要，它将环境的详细特征传递给后续的模型，确保生成能力植根于具体的上下文中 [PH+24]。

基于FM的物理感知

向FM提供物理上下文的最简单方法是提供环境的口头描述。尽管这些提示可以手动编写，但许多方法使用自动化工具增强语言描述。例如，一些研究 [MJ+24, CZR+23] 使用视觉模型来检测和描述物体，而其他研究 [BCF+23, HW+23] 则利用可操作性学习来丰富FM对物体在物理环境中如何被操作的理解。除了被动接收信息，最近的工作使智能体能够决定何时以及观察何种类型的信息，从而促进主动感知。例如，[QZL+24] 允许FM查询经过微调的模型，获取环境细节；这些响应逐步构建场景描述。

协作感知

在多智能体系统中，协作感知旨在融合来自不同智能体的互补传感输入，从而提升整体性能 [YYZ+23]。在自动驾驶或无人机编队中，这通常通过传感器级的数据共享或输出级融合实现 [SRC24]。在基于FM的系统中，协作智能体可以通过聚合每个智能体的本地地图或视觉数据，共同构建环境的全局记忆。例如，[YKC23] 融合了来自多个智能体RGBD输入的语义地图，[TXL+20] 使用每个智能体观察的3D重建形成共享环境的整体3D状态和语义记忆。

3.2 规划

规划是多智能体具身系统的核心模块，使得智能体能够基于状态、目标和个体能力进行战略部署。有效的规划对于任务分配、协调以及无缝整合生成FM的能力至关重要。

规划格式

规划方法通常采用基于语言或基于代码的格式。基于语言的规划使用自然语言引导任务流，具有直观性和易适应性，尤其是在先进FM的出现之后 [MJ+24, YKC23]。相比之下，基于代码的方法利用结构化编程或领域特定符号（例如PDDL）来实现更高的精确度。[KVM24] 使用Python代码框架来描述整体任务流程，[ZQW+24] 将任务转换为PDDL问题，以便分配给多个机器人。

规划过程

除了个体决策外，多智能体协作还要求达成共识、解决冲突和共享资源。在集中式系统中，单一模型通常负责分配子任务。例如，[LTW+24] 根据每个智能体的能力生成行动列表，[OA+24] 集成FM和线性规划来解决任务划分，[CYZ+24] 则利用“机器人简历”来进行FM驱动的任务分配讨论。在去中心化系统中，智能体直接沟通以优化集体计划，并通过强大的信息交换得到支持，这将在下一小节中进一步探讨。

3.3 通信

通信是MAS的核心，使得智能体能够共享情况更新、协调任务并达成共识。与传统方法需要繁琐的通信协议设计不同，生成智能体可以利用FM的零-shot语言生成能力，降低了构建高效通信接口的复杂度。

参考 [SWJ+22]，我们将具身AI中的多生成智能体通信模式分为三种主要结构：

星型结构 ：一个虚拟的中央智能体控制消息流动，向其他智能体广播计划或指令。许多集中式架构的工作都探索了这种方法 [KVM24, YKC23]。
完全连接（FC） ：每个智能体与其他所有智能体自由通信，利用FM驱动的消息。例如，[MJ+24] 使用两个机器人臂之间的FM对话来协调操作任务。在CoELA [ZDS+24] 中，每个智能体通过记忆检索当前状态信息，并通过FM生成通信内容。
层次结构 ：通过建立领导结构来提升可扩展性并减少通信开销。[CJ+24, LYZ+24, GHL+24] 显示了如何通过领导角色来引导或过滤通信，从而提高效率和结果。

3.4 反馈

具身任务复杂且不确定，因此反馈机制对智能体改进至关重要。反馈使智能体能够调整和优化行为，允许它们根据当前状态、环境变化或外部指导进行持续学习。

系统反馈

系统反馈是指在采取行动之前由系统内部生成的信息。这涉及到智能体或集中模型重新审视其初始计划，以识别缺陷或潜在改进之处。多个研究 [LZD+24, CYZ+24, ZMR+23] 实现了任务生成后的多智能体讨论阶段，通过同行反馈完善行动列表。[CAD+24] 和 [ZQW+24] 使用FM检查器来验证基于代码的计划，确保语法正确性。同时，[ZYB+24] 提出了优势函数来评估并迭代优化计划，[LY+23] 使用FM来预测计划结果，随后通过另一个FM评估计划质量，从而推动迭代改进。

环境反馈

环境反馈发生在执行物理（或模拟）世界中的行动后。许多研究记录现实世界的结果以指导未来决策。例如，[LTW+24] 和 [YPY+24] 将行动结果存储在记忆中，以便未来规划参考，而 [QZL+24] 和 [NO+24] 则评估失败的根本原因并相应调整行动计划。此外，多智能体的组织结构可以在任务执行过程中根据环境信号重新配置。[CSZ+23] 动态更新角色，[GHL+24] 使用FM批评者来评估智能体表现，甚至重新组织领导角色。

人类反馈

外部人类指导可以提供细致的干预和战略方向，这是纯自动化系统无法实现的。例如，[PL+23] 识别模糊或不可行的任务指令，要求人类提供帮助，而 [WHK24] 和 [RDB+23] 则结合了符合预测来衡量任务的不确定性并触发人类帮助请求。除了请求帮助，[CK+23] 和 [SH+24] 允许人类操作者通过口头指令实时调整机器人的动作，从而提高任务成功率。

总之，感知、规划、通信和反馈成为将高层次协作架构转化为实际生成多智能体解决方案的基础支柱。无论智能体是通过分布式配置进行外在协作，还是通过单一具身内部的多个FM进行内在协作，强大的支持模块都确保了在现实环境中的适应性和鲁棒性。

下一节将深入探讨具体的应用领域，展示这些功能模块如何协同工作以应对多样的具身任务。通过将架构原理（第2节）与模块化功能结合，并将其植根于实际场景，我们旨在提供一个全面的视角，展示如何在EMAS中有效实现生成多智能体协作。