专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

深度学习自然语言处理 · 公众号 · · 2024-12-16 11:17

正文

作者 | 李在京

单位 | 哈尔滨工业大学深圳

来源 | 机器之心

LLM所有细分方向群+ ACL25/ICML25/NAACL25 投稿群-> LLM所有细分领域群、投稿群从这里进入！

在 Minecraft 中构造一个能完成各种长序列任务的智能体，颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划，以提升智能体执行长序列任务的能力。

然而，由于这些智能体缺乏足够的知识和经验，面对 Minecraft 中复杂的环境仍显得力不从心。为此， 本文提出了一个新颖的智能体框架 ——Optimus-1 ，该框架结合结构化知识与多模态经验，旨在赋能智能体更好地执行长序列任务。

本篇论文的工作已被 NeurlPS（Conference on Neural Information Processing Systems）2024 会议接收。本文主要作者来自哈尔滨工业大学 (深圳) 聂礼强，邵睿团队，合作单位为鹏城实验室。其中，第一作者李在京就读于哈尔滨工业大学 (深圳) 计算机学院，研究方向为开放世界智能体和多模态学习。

论文题目：

Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks

论文链接：

https://arxiv.org/abs/2408.03615

项目链接：

https://cybertronagent.github.io/Optimus-1.github.io/

代码链接：

https://github.com/JiuTian-VL/Optimus-1

现有的Minecraft Agents有哪些局限性？

1. 对结构化知识缺乏探索。 Minecraft 中充满了丰富的结构化知识，例如工具的合成规则（一根木棍和两块铁锭可以合成一把铁剑），以及不同层级的科技树（木材 → 石器 → 铁器 → 金器 → 钻石）等。

这些知识有助于智能体做出合理的规划，一步一步获取完成任务所需的材料和工具。然而，现有的智能体缺乏必要的知识，导致他们做出长序列规划的能力受限。

2. 缺乏充足的多模态经验。 过往的经验对帮助人类完成未曾遇见的任务具有重要作用，同样，智能体也能借助历史经验在面对新任务时作出更加精准的判断与决策。然而，现有的智能体在多模态经验的积累与总结上存在缺陷，未能有效整合视觉、语言、动作等多方面的经验，限制了其在复杂任务中的决策能力和适应性。

为了解决上述挑战，我们设计了一个混合多模态记忆模块，将结构化知识和多模态经验整合到智能体的记忆机制中。类似于知识与经验在指导人类完成复杂任务中的重要作用，智能体在规划阶段借助结构化知识生成可行的任务计划，而在反思阶段则利用多模态经验对当前状态进行判断，并做出更加合理的决策。

在此基础上，我们提出了智能体框架 Optimus-1。在混合多模态记忆的赋能下，Optimus-1 在 67 个长序列任务上实现了当前最先进的性能，并缩小了与人类水平基线的差距。

研究方法

Optimus-1 的框架如下图所示。它由混合多模态记忆模块，知识引导的规划器，经验驱动的反思器，以及行动控制器组成。

给定一个长序列任务，知识引导的规划器首先从混合多模态记忆中检索任务相关的知识，并基于这些知识生成一系列可执行的子目标。这些子目标依次输入到行动控制器中，生成行动信号以完成任务。在

执行任务过程中，经验驱动反思器会定期激活，检索与当前子目标相关的多模态经验作为参考，以此判断智能体当前状态，从而做出更为合理的决策。

▲ 图1. Optimus-1的整体框架

1. 混合多模态记忆（Hybrid Multimodal Memory）

▲ 图2. 摘要化多模态经验池和层次化有向知识图的构建流程

如上图所示，混合多模态记忆由摘要化多模态经验池（AMEP）和层次化有向知识图（HDKG）组成。对于 AMEP，视频流首先通过 Video Buffer 和 Image Buffer 过滤，得到固定窗口大小的帧序列，并与文本通过 MineCLIP 计算相似度，若超过阈值，则保存帧序列、文本及环境信息等内容作为多模态经验。

这些经验为智能体反思阶段提供细粒度的多模态信息，同时通过摘要化降低了存储开销。

对于 HDKG，任务执行过程中获取的知识被转化为图结构。例如，“两根木棍和三块木板可以合成一把木镐” 被表示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe}，为智能体的规划阶段提供必要的知识支持，帮助其做出合理的任务规划。

2. 知识引导的规划器（Knowledge-Guided Planner）

给定任务 t，当前的视觉观察 o，知识引导的规划器从 HDKG 中检索相关知识，生成子目标序列