©PaperWeekly 原创 · 作者 |
陈翰扬
▲ EmbodiedBench | 从刷题到搬砖,通用多模态大模型离具身智能还有多远?
多模态大语言模型(MLLM)的快速发展,为具身智能体(Embodied Agent)的实现开辟了新路径。这类模型不仅能理解复杂的语言指令,还能结合视觉感知进行推理与规划,展现出解决真实世界任务的潜力。然而,现有研究多聚焦于语言驱动的智能体设计,对MLLM在具身任务中的能力边界仍缺乏系统性评估。
1. 未来的具身智能体能否仅依赖通用多模态大模型(MLLM),而不需要任务专用模型?
MLLM 是否能够端到端地完成从高层语义规划(如“把书放在桌上”)到底层原子动作(如机械臂的移动和旋转)的全层次任务?这取决于 MLLM 是否具备足够的通用性和灵活性。
2. 如果无法实现,瓶颈在哪里?
如果现有 MLLM 无法胜任,问题可能出在常识推理、空间认知、长期规划等关键能力上。如何量化这些能力的差距,将是揭示 MLLM 局限性和改进方向的关键。
伊利诺伊大学香槟分校联合西北大学,多伦多大学,构建了致力于为 MLLM 驱动的具身智能体提供标准化、多维度评测的框架——
EmbodiedBench
:
https://arxiv.org/abs/2502.09560
https://embodiedbench.github.io/
https://github.com/EmbodiedBench/EmbodiedBench
https://huggingface.co/EmbodiedBench
学术界和工业界不乏为优质的,为测试具身任务开发的 benchmark。这些 benchmark 在各自的目标领域给我们提供了精细的测评,但展现了类似的共同点:
2. 多模态支持不足:
如 AgentBench、Embodied Agent Interface 等依赖纯文本输入,未充分利用视觉感知。
3. 评估维度单一:
多数工作仅关注总成功率,忽视模型在推理、规划等细分能力上的差异。
4. 现有数据集的质量问题及其改进:
当前部分常用数据集存在低质量现象。例如,在 ALFRED 数据集中,标准任务要求操作 “Tomato”(番茄),但语言指令却指向 “Potato”(土豆);此外,相似概念(如 “Bottle” 和 “Cup”)的指令描述模糊不清,导致任务失败并非源于模型能力,而是数据本身。
此外,LotaBench 提供的仿真器也存在局限性,例如不支持多物品操作,以及正确动作无法成功执行(如将物品放入水槽却只能放置到边缘),这些仿真器的问题同样影响了任务的完成。针对这些缺陷,我们在设计新数据集和仿真器时,通过人工检查与修复,提升了数据质量与仿真环境的可靠性。
▲ 不同 Embodied-driven Benchmark 在各维度的特点
EmbodiedBench设计:任务维度多样性,能力维度多样性
▲ EmbodiedBench 在两个正交的维度进行分类:(左)任务多样性;(右)能力多样性
2.1 同时覆盖高&低层次任务:
EmbodiedBench 覆盖了 4 大环境(EB-ALFRED、EB-Habitat、EB-Navigation、EB-Manipulation),共 1128 个测试任务。
-
高层次任务环境:
1. EB-ALFRED
& 2.
EB-Habitat
环境包含高层次语义任务,强调任务分解与规划。例如,“把一本书放到桌子上”这样的家庭场景任务,需要模型理解语义指令并规划一系列子步骤去完成
-
低层次任务环境:1. EB-Navigation
& 2.
EB-Manipulation
环境包含低层次操作任务,要求模型通过原子动作来完成目标。例如导航任务需要通过连续的前进、转向等底层动作在空间中移动,操作任务需要精确控制机械臂的平移/旋转来抓取或操作物体。这类任务对模型的感知精度和空间推理能力提出了更高要求。
层次化的动作粒度:通过上述环境的设计,EmbodiedBench 囊括了
高层次动作
(如拾起/放下物体这样的宏动作)和
低层次控制
(如机器人逐步移动和操纵)的任务类型。这样的多层次任务设置使我们能够同时评估模型在“大局规划”和“细节执行”两个层面上的表现。
-
基础任务解决:
完成基本任务的能力,衡量模型对指令的基本执行力(相当于总体任务成功率的基础部分)。
-
常识推理:
常识性理解能力。通过将物体名称替换为常识性描述,考察模型根据常识进行推断的能力:比如将 cup(水杯)替换为 “a small container to hold water or coffee”。
-
复杂指令理解:
考察当指令中包含复杂和不相关的信息时,模型提取关键指令的能力
-
空间认知:
理解和推理空间关系的能力,包括导航路径规划、方位朝向理解,以及对“三维空间中物体位置”的把握。
-
视觉感知:
通过物品的外观,颜色或者形状信息正确识别目标物体的能力。
-
长期规划:
面向长时间跨度任务的规划能力。这涉及在需要很多步骤才能完成的任务中保持合理的计划和顺序,不遗漏关键步骤。
通过以上六个维度的评估,EmbodiedBench 能够识别出模型的长处和短板。例如,如果一个模型常识推理得分低,可能意味着它缺乏对日常物理知识的理解;空间认知差则意味着它可能在导航或定位物体方面表现不佳。
视觉驱动的智能体框架,有效提升低层级任务执行
▲ EmbodiedBench 中提出的视觉驱动的智能体框架
语言指令:
用户或系统通过自然语言发出任务需求(例如“去厨房拿一个苹果”),提供高层次意图。
当前帧图像:
从视觉传感器或摄像头获取的实时画面,用于识别场景、定位目标和理解环境状态。
历史交互:
记录机器人过去的动作执行情况、已经做过的尝试以及与用户或环境的互动信息,帮助机器人保持上下文连续性。
环境反馈:
例如动作是否执行成功、是否被阻挡、物体是否可达等。这些反馈让机器人了解执行效果,进而进行动态调整。
通过 YOLO 等检测算法为图像中的物体生成带有索引的边界框,帮助机器人精准地识别与定位目标。 这样做能减少对文字描述定位的依赖,成功率可提升 10%-12%。
将图像分辨率固定在 500×500 像素,兼顾清晰度和处理速度。 如果分辨率过低(如 300×300),可能遗漏关键细节;如果过高(如 700×700),则会带来不必要的噪声和算力开销。
3.2 如何规划
3.2.1 Embodied-Aware CoT Prompting
通过“思考链(Chain of Thought)”的方式,让系统依次完成以下四个步骤,实现更符合实际环境的决策。在具体实现中,我们使用
“
Structured Json Output”
来规范模型的输出格式,来保证按顺序完成下列推理轨迹:
Visual State Description:
描述当前场景中重要的视觉元素,如物体位置、环境布局等。
Reasoning and Reflection:
根据视觉信息和任务目标进行推理和反思,思考可能的方案以及可行性。
Language Plan:
以语言或符号的形式输出具体的执行计划,方便后续转化成可执行命令。
Executable Plan:
将上一步的计划进一步拆分成机器人可执行的动作指令(如移动、抓取、旋转等)。
一次性生成多步动作序列(例如先移动 5 步,再检测目标),相比单步更快,减少 API cost,实验发现还能提高成功率,相比完整 plan 更加灵活,是一种介于两者之间的一种方案,更适合当前 MLLM agent。
通过各部分的配合(输入融合、规划决策、反馈调整),该框架能够在实际环境中高效地完成多模态指令下的各类操作任务。
GPT-4o 在 EB-Manipulation 上的成功示例: