专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

从刷题到搬砖，通用多模态大模型离具身智能还有多远？

PaperWeekly · 公众号 · 科研 · 2025-03-08 22:32

正文

©PaperWeekly 原创 · 作者 | 陈翰扬

单位 | 伊利诺伊大学香槟分校

研究方向 | 多模态大语言模型

▲ EmbodiedBench | 从刷题到搬砖，通用多模态大模型离具身智能还有多远？

多模态大语言模型（MLLM）的快速发展，为具身智能体（Embodied Agent）的实现开辟了新路径。这类模型不仅能理解复杂的语言指令，还能结合视觉感知进行推理与规划，展现出解决真实世界任务的潜力。然而，现有研究多聚焦于语言驱动的智能体设计，对MLLM在具身任务中的能力边界仍缺乏系统性评估。

我们想要回答：

1. 未来的具身智能体能否仅依赖通用多模态大模型（MLLM），而不需要任务专用模型？ MLLM 是否能够端到端地完成从高层语义规划（如“把书放在桌上”）到底层原子动作（如机械臂的移动和旋转）的全层次任务？这取决于 MLLM 是否具备足够的通用性和灵活性。

2. 如果无法实现，瓶颈在哪里？ 如果现有 MLLM 无法胜任，问题可能出在常识推理、空间认知、长期规划等关键能力上。如何量化这些能力的差距，将是揭示 MLLM 局限性和改进方向的关键。

伊利诺伊大学香槟分校联合西北大学，多伦多大学，构建了致力于为 MLLM 驱动的具身智能体提供标准化、多维度评测的框架—— EmbodiedBench ：

文章链接：

https://arxiv.org/abs/2502.09560

项目网站：

https://embodiedbench.github.io/

代码仓库：

https://github.com/EmbodiedBench/EmbodiedBench

测试数据：

https://huggingface.co/EmbodiedBench

为了具身任务，我们为什么需要新的评测基准？

学术界和工业界不乏为优质的，为测试具身任务开发的 benchmark。这些 benchmark 在各自的目标领域给我们提供了精细的测评，但展现了类似的共同点：

1. 任务层次较为单一：

如 LotaBench、VisualAgentBench 等仅支持高层语义任务（如家庭场景规划），无法评估低层控制能力。
如 VLMBench、GOAT-bench 等专注于低层操作或导航，但缺乏高层任务理解和分解。

2. 多模态支持不足： 如 AgentBench、Embodied Agent Interface 等依赖纯文本输入，未充分利用视觉感知。

3. 评估维度单一： 多数工作仅关注总成功率，忽视模型在推理、规划等细分能力上的差异。

4. 现有数据集的质量问题及其改进： 当前部分常用数据集存在低质量现象。例如，在 ALFRED 数据集中，标准任务要求操作 “Tomato”（番茄），但语言指令却指向 “Potato”（土豆）；此外，相似概念（如 “Bottle” 和 “Cup”）的指令描述模糊不清，导致任务失败并非源于模型能力，而是数据本身。

此外，LotaBench 提供的仿真器也存在局限性，例如不支持多物品操作，以及正确动作无法成功执行（如将物品放入水槽却只能放置到边缘），这些仿真器的问题同样影响了任务的完成。针对这些缺陷，我们在设计新数据集和仿真器时，通过人工检查与修复，提升了数据质量与仿真环境的可靠性。

▲ 不同 Embodied-driven Benchmark 在各维度的特点

EmbodiedBench设计：任务维度多样性，能力维度多样性

▲ EmbodiedBench 在两个正交的维度进行分类：（左）任务多样性；（右）能力多样性

2.1 同时覆盖高&低层次任务：

EmbodiedBench 覆盖了 4 大环境（EB-ALFRED、EB-Habitat、EB-Navigation、EB-Manipulation），共 1128 个测试任务。

高层次任务环境： 1. EB-ALFRED & 2. EB-Habitat 环境包含高层次语义任务，强调任务分解与规划。例如，“把一本书放到桌子上”这样的家庭场景任务，需要模型理解语义指令并规划一系列子步骤去完成
低层次任务环境：1. EB-Navigation & 2. EB-Manipulation 环境包含低层次操作任务，要求模型通过原子动作来完成目标。例如导航任务需要通过连续的前进、转向等底层动作在空间中移动，操作任务需要精确控制机械臂的平移/旋转来抓取或操作物体。这类任务对模型的感知精度和空间推理能力提出了更高要求。

层次化的动作粒度：通过上述环境的设计，EmbodiedBench 囊括了 高层次动作 （如拾起/放下物体这样的宏动作）和 低层次控制 （如机器人逐步移动和操纵）的任务类型。这样的多层次任务设置使我们能够同时评估模型在“大局规划”和“细节执行”两个层面上的表现。

2.2 分为六种能力评估：

基础任务解决： 完成基本任务的能力，衡量模型对指令的基本执行力（相当于总体任务成功率的基础部分）。
常识推理： 常识性理解能力。通过将物体名称替换为常识性描述，考察模型根据常识进行推断的能力：比如将 cup（水杯）替换为 “a small container to hold water or coffee”。
复杂指令理解： 考察当指令中包含复杂和不相关的信息时，模型提取关键指令的能力
空间认知： 理解和推理空间关系的能力，包括导航路径规划、方位朝向理解，以及对“三维空间中物体位置”的把握。
视觉感知： 通过物品的外观，颜色或者形状信息正确识别目标物体的能力。
长期规划： 面向长时间跨度任务的规划能力。这涉及在需要很多步骤才能完成的任务中保持合理的计划和顺序，不遗漏关键步骤。

通过以上六个维度的评估，EmbodiedBench 能够识别出模型的长处和短板。例如，如果一个模型常识推理得分低，可能意味着它缺乏对日常物理知识的理解；空间认知差则意味着它可能在导航或定位物体方面表现不佳。

视觉驱动的智能体框架，有效提升低层级任务执行

▲ EmbodiedBench 中提出的视觉驱动的智能体框架

3.1 输入什么

3.1.1 多模态输入融合

语言指令： 用户或系统通过自然语言发出任务需求（例如“去厨房拿一个苹果”），提供高层次意图。

当前帧图像：从视觉传感器或摄像头获取的实时画面，用于识别场景、定位目标和理解环境状态。

历史交互：记录机器人过去的动作执行情况、已经做过的尝试以及与用户或环境的互动信息，帮助机器人保持上下文连续性。

环境反馈：例如动作是否执行成功、是否被阻挡、物体是否可达等。这些反馈让机器人了解执行效果，进而进行动态调整。

3.1.2 视觉增强设计

检测框标注（EB-Manipulation）

通过 YOLO 等检测算法为图像中的物体生成带有索引的边界框，帮助机器人精准地识别与定位目标。这样做能减少对文字描述定位的依赖，成功率可提升 10%-12%。

分辨率优化

将图像分辨率固定在 500×500 像素，兼顾清晰度和处理速度。如果分辨率过低（如 300×300），可能遗漏关键细节；如果过高（如 700×700），则会带来不必要的噪声和算力开销。

3.2 如何规划

3.2.1 Embodied-Aware CoT Prompting

通过“思考链（Chain of Thought）”的方式，让系统依次完成以下四个步骤，实现更符合实际环境的决策。在具体实现中，我们使用 “ Structured Json Output” 来规范模型的输出格式，来保证按顺序完成下列推理轨迹：

Visual State Description： 描述当前场景中重要的视觉元素，如物体位置、环境布局等。

Reasoning and Reflection：根据视觉信息和任务目标进行推理和反思，思考可能的方案以及可行性。

Language Plan：以语言或符号的形式输出具体的执行计划，方便后续转化成可执行命令。

Executable Plan：将上一步的计划进一步拆分成机器人可执行的动作指令（如移动、抓取、旋转等）。

3.2.2 多步规划

一次性生成多步动作序列（例如先移动 5 步，再检测目标），相比单步更快，减少 API cost，实验发现还能提高成功率，相比完整 plan 更加灵活，是一种介于两者之间的一种方案，更适合当前 MLLM agent。

通过各部分的配合（输入融合、规划决策、反馈调整），该框架能够在实际环境中高效地完成多模态指令下的各类操作任务。

GPT-4o 在 EB-Manipulation 上的成功示例：

从刷题到搬砖，通用多模态大模型离具身智能还有多远？

正文

请到「今天看啥」查看全文