专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
社会学理论大缸  ·  情侣消费,要不要AA制? ·  昨天  
PaperWeekly  ·  博士申请 | ... ·  4 天前  
募格学术  ·  痛惜!北京大学56岁副教授叶纯芳逝世 ·  2 天前  
研之成理  ·  西华-江明航/蒋珍菊/廖雪梅&南大-金钟&玉 ... ·  4 天前  
51好读  ›  专栏  ›  PaperWeekly

从刷题到搬砖,通用多模态大模型离具身智能还有多远?

PaperWeekly  · 公众号  · 科研  · 2025-03-08 22:32

正文

©PaperWeekly 原创 · 作者 | 陈翰扬
单位 | 伊利诺伊大学香槟分校
研究方向 | 多模态大语言模型


▲ EmbodiedBench | 从刷题到搬砖,通用多模态大模型离具身智能还有多远?
多模态大语言模型(MLLM)的快速发展,为具身智能体(Embodied Agent)的实现开辟了新路径。这类模型不仅能理解复杂的语言指令,还能结合视觉感知进行推理与规划,展现出解决真实世界任务的潜力。然而,现有研究多聚焦于语言驱动的智能体设计,对MLLM在具身任务中的能力边界仍缺乏系统性评估。
我们想要回答:
1. 未来的具身智能体能否仅依赖通用多模态大模型(MLLM),而不需要任务专用模型? MLLM 是否能够端到端地完成从高层语义规划(如“把书放在桌上”)到底层原子动作(如机械臂的移动和旋转)的全层次任务?这取决于 MLLM 是否具备足够的通用性和灵活性。
2. 如果无法实现,瓶颈在哪里? 如果现有 MLLM 无法胜任,问题可能出在常识推理、空间认知、长期规划等关键能力上。如何量化这些能力的差距,将是揭示 MLLM 局限性和改进方向的关键。

伊利诺伊大学香槟分校联合西北大学,多伦多大学,构建了致力于为 MLLM 驱动的具身智能体提供标准化、多维度评测的框架—— EmbodiedBench

文章链接:
https://arxiv.org/abs/2502.09560
项目网站:
https://embodiedbench.github.io/
代码仓库:
https://github.com/EmbodiedBench/EmbodiedBench
测试数据:
https://huggingface.co/EmbodiedBench



为了具身任务,我们为什么需要新的评测基准?
学术界和工业界不乏为优质的,为测试具身任务开发的 benchmark。这些 benchmark 在各自的目标领域给我们提供了精细的测评,但展现了类似的共同点:
1. 任务层次较为单一:
  • 如 LotaBench、VisualAgentBench 等仅支持高层语义任务(如家庭场景规划),无法评估低层控制能力。

  • 如 VLMBench、GOAT-bench 等专注于低层操作或导航,但缺乏高层任务理解和分解。

2. 多模态支持不足: 如 AgentBench、Embodied Agent Interface 等依赖纯文本输入,未充分利用视觉感知。
3. 评估维度单一: 多数工作仅关注总成功率,忽视模型在推理、规划等细分能力上的差异。

4. 现有数据集的质量问题及其改进: 当前部分常用数据集存在低质量现象。例如,在 ALFRED 数据集中,标准任务要求操作 “Tomato”(番茄),但语言指令却指向 “Potato”(土豆);此外,相似概念(如 “Bottle” 和 “Cup”)的指令描述模糊不清,导致任务失败并非源于模型能力,而是数据本身。

此外,LotaBench 提供的仿真器也存在局限性,例如不支持多物品操作,以及正确动作无法成功执行(如将物品放入水槽却只能放置到边缘),这些仿真器的问题同样影响了任务的完成。针对这些缺陷,我们在设计新数据集和仿真器时,通过人工检查与修复,提升了数据质量与仿真环境的可靠性。

▲ 不同 Embodied-driven Benchmark 在各维度的特点



EmbodiedBench设计:任务维度多样性,能力维度多样性

▲ EmbodiedBench 在两个正交的维度进行分类:(左)任务多样性;(右)能力多样性

2.1 同时覆盖高&低层次任务:

EmbodiedBench 覆盖了 4 大环境(EB-ALFRED、EB-Habitat、EB-Navigation、EB-Manipulation),共 1128 个测试任务。
  • 高层次任务环境: 1. EB-ALFRED & 2. EB-Habitat 环境包含高层次语义任务,强调任务分解与规划。例如,“把一本书放到桌子上”这样的家庭场景任务,需要模型理解语义指令并规划一系列子步骤去完成

  • 低层次任务环境:1. EB-Navigation & 2. EB-Manipulation 环境包含低层次操作任务,要求模型通过原子动作来完成目标。例如导航任务需要通过连续的前进、转向等底层动作在空间中移动,操作任务需要精确控制机械臂的平移/旋转来抓取或操作物体。这类任务对模型的感知精度和空间推理能力提出了更高要求。

层次化的动作粒度:通过上述环境的设计,EmbodiedBench 囊括了 高层次动作 (如拾起/放下物体这样的宏动作)和 低层次控制 (如机器人逐步移动和操纵)的任务类型。这样的多层次任务设置使我们能够同时评估模型在“大局规划”和“细节执行”两个层面上的表现。

2.2 分为六种能力评估:
  1. 基础任务解决: 完成基本任务的能力,衡量模型对指令的基本执行力(相当于总体任务成功率的基础部分)。

  2. 常识推理: 常识性理解能力。通过将物体名称替换为常识性描述,考察模型根据常识进行推断的能力:比如将 cup(水杯)替换为 “a small container to hold water or coffee”。

  3. 复杂指令理解: 考察当指令中包含复杂和不相关的信息时,模型提取关键指令的能力

  4. 空间认知: 理解和推理空间关系的能力,包括导航路径规划、方位朝向理解,以及对“三维空间中物体位置”的把握。

  5. 视觉感知: 通过物品的外观,颜色或者形状信息正确识别目标物体的能力。

  6. 长期规划: 面向长时间跨度任务的规划能力。这涉及在需要很多步骤才能完成的任务中保持合理的计划和顺序,不遗漏关键步骤。

通过以上六个维度的评估,EmbodiedBench 能够识别出模型的长处和短板。例如,如果一个模型常识推理得分低,可能意味着它缺乏对日常物理知识的理解;空间认知差则意味着它可能在导航或定位物体方面表现不佳。



视觉驱动的智能体框架,有效提升低层级任务执行

▲ EmbodiedBench 中提出的视觉驱动的智能体框架

3.1 输入什么
3.1.1 多模态输入融合

语言指令: 用户或系统通过自然语言发出任务需求(例如“去厨房拿一个苹果”),提供高层次意图。

当前帧图像: 从视觉传感器或摄像头获取的实时画面,用于识别场景、定位目标和理解环境状态。

历史交互: 记录机器人过去的动作执行情况、已经做过的尝试以及与用户或环境的互动信息,帮助机器人保持上下文连续性。

环境反馈: 例如动作是否执行成功、是否被阻挡、物体是否可达等。这些反馈让机器人了解执行效果,进而进行动态调整。

3.1.2 视觉增强设计
  • 检测框标注(EB-Manipulation)

通过 YOLO 等检测算法为图像中的物体生成带有索引的边界框,帮助机器人精准地识别与定位目标。 这样做能减少对文字描述定位的依赖,成功率可提升 10%-12%。

  • 分辨率优化

将图像分辨率固定在 500×500 像素,兼顾清晰度和处理速度。 如果分辨率过低(如 300×300),可能遗漏关键细节;如果过高(如 700×700),则会带来不必要的噪声和算力开销。

3.2 如何规划

3.2.1 Embodied-Aware CoT Prompting

通过“思考链(Chain of Thought)”的方式,让系统依次完成以下四个步骤,实现更符合实际环境的决策。在具体实现中,我们使用 Structured Json Output” 来规范模型的输出格式,来保证按顺序完成下列推理轨迹:

Visual State Description: 描述当前场景中重要的视觉元素,如物体位置、环境布局等。

Reasoning and Reflection: 根据视觉信息和任务目标进行推理和反思,思考可能的方案以及可行性。

Language Plan: 以语言或符号的形式输出具体的执行计划,方便后续转化成可执行命令。

Executable Plan: 将上一步的计划进一步拆分成机器人可执行的动作指令(如移动、抓取、旋转等)。

3.2.2 多步规划
一次性生成多步动作序列(例如先移动 5 步,再检测目标),相比单步更快,减少 API cost,实验发现还能提高成功率,相比完整 plan 更加灵活,是一种介于两者之间的一种方案,更适合当前 MLLM agent。

通过各部分的配合(输入融合、规划决策、反馈调整),该框架能够在实际环境中高效地完成多模态指令下的各类操作任务。


GPT-4o 在 EB-Manipulation 上的成功示例:






请到「今天看啥」查看全文