具身智能突破！清华新作UP-VLA：空间理解和预测模型大一统！

3D视觉工坊 · 公众号 · · 2025-02-09 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent

作者：Jianke Zhang, Yanjiang Guo, Yucheng Hu, Xiaoyu Chen, Xiang Zhu, Jianyu Chen

机构：Tsinghua University、Shanghai Qi Zhi Institute

原文链接：https://arxiv.org/abs/2501.18867

1. 导读

视觉-语言-动作(VLA)模型的最新进展利用了预训练的视觉-语言模型(vlm)来提高泛化能力。通常在视觉语言理解任务上预先训练的vlm提供丰富的语义知识和推理能力。然而，先前的研究表明，vlm通常专注于高级语义内容，而忽略低级特征，这限制了它们捕捉详细空间信息和理解物理动态的能力。这些方面对于控制任务来说是至关重要的，但在现有的预训练范式中仍然没有得到充分的探索。在本文中，我们研究了VLAs的训练范式，并介绍了一种统一的VLA模型训练，具有多模态理解和未来预测目标，增强了高级语义理解和低级空间理解。实验结果表明，UP-VLA算法在Calvin ABC-D基准测试上取得了33%的性能提升。此外，UP-VLA在现实世界的操作任务中表现出了更高的成功率，特别是那些需要精确空间信息的任务。

2. 效果展示

UP-VLA通过预训练多模态理解目标和未来预测目标来更好地捕捉高层次语义信息和低层次空间细节从而增强实体决策任务。

UP-VLA、基于VLM的VLA模型和基于预测模型之间的比较。右下角的图表说明了在模拟和现实世界环境中在多个任务上的表现。我们从每种方法中选择了最佳模型。

3. 主要贡献

1.受最近对VLMS局限性的深入洞察的启发，我们将丰富详细信息和动态上下文的视频数据集整合到VLA模型的预训练中，以增强其能力。

2.我们为VLA模型引入了一种新的训练范式结合了视觉-语言理解和未来预测目标，能够捕捉到实体代理所需的高级语义和低级视觉模式。推荐课程：国内首个面向具身智能方向的理论与实战课程。

3.我们在模拟和现实世界的操纵任务中都实现了成功率的大幅提高。此外，我们进行了一项消融研究，以验证两种预训练的有效性。

4. 方法

我们的目标是开发更好的VLAS训练方案。在此部分中，我们描述了UP-VLA的详细信息。我们首先在统一的VLM上构建我们的骨干，然后设计一个统一的机制来弥合视觉预测与多模态理解之间的差距。最后，我们通过统一的预测和理解提示技术来增强动作学习。

统一提示和注意力机制的示意图。我们使用特殊标记来分段输入序列并识别任务类型。对于MMU任连续的图像标记放在语言标记之前，使图像标记能够相互关注。对于图像预测，图像放在语言标记之务，使它们能够关注所有先前的信息并预测与语言指令一致的未来图像。对于结合理解和预测的动作学习后，，两个任务中的标记被连接起来，使动作能够关注高级场景理解和低级视觉信息。

我们的评估环境的可视化。左边是Calvin，我们在ABC→D和ABCD→D设置上进行了测试。

对于现实世界，我们在简单任务上训练我们的模型，并在更复杂的场景下进行测试。

5. 实验结果

6. 总结

在这篇论文中，我们介绍了UP-VLA，一个视觉语言-动作模型，可以理解、生成预测的未来图像，并在实体环境中规划动作。我们设计了一种新的VLA训练范式，将政策学习与视觉预测和多模态理解相结合。我们的结果表明，使用未来图像预测可以显著提高政策的精确度和视觉泛化能力。我们还通过将多模态理解知识引入基于维度预测的政策学习中，在语义基础和空间理解方面表现出更强的泛化能力。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。