具身智能爆火的这一年里，最有影响力的10篇论文！

3D视觉工坊 · 公众号 · · 2025-02-19 07:00

正文

来源：深蓝具身智能

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

‍‍‍

鸣谢！所有参与本次年度论文推荐的青年学者们

数据来源

2024年被认为是具身智能元年，这一年里，具身智能学术界发表了大量开创性的论文，引起了整个行业的关注。

同时，2025年虽然刚刚过去一个月，但也涌现出了不少佳作。 ‍ ‍ ‍ ‍ ‍ ‍ ‍

那么，哪些是具有「影响力」的高质量论文，值得我们反复研读的？

为此， 我们采访调研了数十位优秀的具身智能领域一线研究者 ，推荐出他们心目中认为的年度最具影响力10篇论文。

（或许，每一位研究者心中都有自己的十佳论文，欢迎推荐补充）

希望这些通过合力推荐而来的论文，能成为大家探索具身智能及其相关领域的得力参考。

近一年里具身智能领域

最具影响力的10篇论文

（民榜，排名不分先后）

Universal Manipulation Interface:In-The-Wild Robot Teaching Without In-The-Wild Robots

机构： 斯坦福大学、哥伦比亚大学、丰田研究所
奖项： RSS 2024的最佳系统论文奖
推荐理由：该项工作解决了机器人训练中“先有鸡还是先有蛋”的难题。
论文内容： 作者提出了一种机械臂统一接口UMI，提供了一个创新的数据收集方法。它允许将野外人类演示的技能直接转移到可部署的机器人策略中（机器人的观察和行为表示）。
UMI的硬件和软件系统开源地址： https://umi-gripper.github.io
论文地址：https://arxiv.org/pdf/2402.10329
实验结果： 以下是基于UMI采集的数据进行模型训练叠衣服的效果。

延展阅读：通用操作接口UMI：如何快速简单地给机器人提供更多学习数据？

OpenVLA:An Open-Source Vision-Language-Action Model

机构： 斯坦福大学、加州大学伯克利分校、谷歌DeepMind等
奖项： CoRL 2024最佳论文提名奖
推荐理由：OpenVLA是首个大规模的开源VLA模型，它降低了研究者和开发者在机器人控制和具身智能领域工作的门槛。
论文内容： OpenVLA模型的关键创新在于基于97万个真实世界机器人演示数据进行训练，并建立在Llama 2语言模型和DINOv2、SigLIP预训练特征的视觉编码器之上，这使得OpenVLA在29个任务和多种机器人形态上展现出强大的性能，其绝对任务成功率比封闭模型RT-2-X高出16.5%，同时参数数量减少了7倍。此外，OpenVLA还具有出色的泛化能力、计算效率以及开源性，为视觉-语言-动作模型的研究和应用提供了新的思路和工具。
OpenVLA的开源链接： https://github.com/openvla/openvla ‍
论文地址： https://arxiv.org/pdf/2406.09246

π0: A Vision-Language-Action Flow Model for General Robot Control

机构： Physical Intelligence （一家具身智能创业公司）
推 荐理由：‍‍由被认为是全球具身智能领域“最强创始团队”的Physical Intelligence发布的机器人大模型，机器人泛化能力大幅提升。
论文内容： 本文介绍了一种名为π0的模型，旨在解决机器人学习中的主要挑战，包括数据稀缺性、泛化能力和鲁棒性。π0模型基于预训练的视觉-语言模型（VLM），并结合了流匹配架构，能够理解和执行复杂的物理任务。该模型能够处理零样本学习，并在高质量数据上进行微调，以实现如叠衣服、清理桌子和组装盒子等多阶段任务。π0展示了在灵巧性、泛化能力和鲁棒性方面的显著进步，为实现更智能的机器人系统提供了新的可能性。
论文地址： https://arxiv.org/pdf/2410.24164

RDT-1B: A DIFFUSION FOUNDATION MODEL FOR BIMANUAL MANIPULATION

机构： 清华大学AI研究院TSAIL团队
推荐理由：本文开创性地提出了一种针对双臂操作的扩散基础模型，是全球参数规模最大的针对双臂机器人操作任务的扩散基础模型。
论文内容： 本文介绍了机器人扩散变换器（RDT-1B），这是一种针对双臂操作的开创性扩散基础模型，能够有效地表示多模态特性，捕捉机器人数据的非线性和高频特性，并解决数据稀缺问题。RDT-1B基于扩散模型，采用可扩展的Transformer架构来处理多模态输入的异质性。为了解决数据稀缺问题，引入了物理上可解释的统一动作空间，可以统一各种机器人的动作表示，同时保留原始动作的物理意义，促进学习可迁移的物理知识。RDT-1B在迄今为止最大的多机器人数据集上进行了预训练，并扩展到1.2B参数，这是最大的基于扩散的机器人操作基础模型。
论文地址： https://arxiv.org/pdf/2410.07864

ORION: Vision-based Manipulation from Single Human Video with Open-World Object Graphs

机构： UT Austin和Nvidia
推荐理由：该论文提出了一种从单个人类视频中学习视觉操作技能的方法，能够通过提取开放世界中的对象图谱来构建可泛化的操作策略，具有很强的创新性和实用性。
论文内容： 本文提出了一种以物体为中心的方法，使机器人能够从人类视频中学习基于视觉的操作技能。研究了在开放世界环境下从单个人类视频中模仿机器人操作的问题，其中机器人必须从一个视频演示中学习操作新物体。引入了ORION算法，通过从单个RGB-D视频中提取物体为中心的操作计划并推导出一个依赖于提取计划的策略来解决这个问题。该方法使机器人能够从iPad等日常移动设备捕捉的视频中学习，并将策略推广到具有不同视觉背景、摄像机角度、空间布局和新物体实例的部署环境中。系统地评估了该方法在短期和长期任务中的表现，展示了ORION在从单个人类视频中学习开放世界操作方面的有效性。
论文地址： https://arxiv.org/pdf/2405.20321

HumanPlus: Humanoid Shadowing and Imitation from Humans

机构： 斯坦福大学
奖项： Best Paper Award Finalist (top 6) at CoRL 2024
推荐理由：项目展示了一个全栈式系统，该系统使人形机器人能够从人类数据中学习运动和自主技能。
论文内容： 这篇论文介绍了一个名为HumanPlus的全栈人形机器人系统，用于从人类数据中学习复杂的自主技能。该系统的核心包括：

一个实时影子系统，允许人类操作员使用单个RGB相机和Humanoid Shadowing Transformer（HST）来全身控制人形机器人，该HST是一种在模拟中训练的大量人类运动数据的low-level策略。

人形模仿Transformer（HIT），一种模仿学习算法，使用40个演示就能高效地学习双目感知和高自由度控制。通过影子系统和模仿学习算法的协同作用，HumanPlus允许直接在真实世界中学习全身操纵和运动技能，如穿鞋站立行走，仅使用最多40个演示就达到60-100%的成功率。
论文地址： https://arxiv.org/pdf/2406.10454

Open X-Embodiment: Robotic Learning Datasets and RT-X Models

机构： 谷歌 DeepMind 联手斯坦福大学等21个机构
奖项： 2 024年I EEE国际机器人与自动化会议（ICRA）的最佳论文奖
推荐理由：数据极大限制了具身智能的发展，本文贡献了迄今为止最大的开源真实机器人数据集。
论文内容： 这篇论文本文介绍了Open X-Embodiment数据集，这是迄今为止最大的开源真实机器人数据集。该数据集包含超过100万条真实机器人轨迹，涵盖22个机器人实例，从单臂机器人到双手机器人和四足机器人。数据集由全球21个机构合作创建，汇集了60个现有机器人数据集，展示了527种技能（160,266个任务）。该数据集旨在推动通用机器人策略的学习，通过在多样化机器人平台和环境数据上训练模型，提高模型的泛化能力和跨平台学习能力。基于该数据集训练的RT-X模型表现出正迁移，能够通过利用其他平台的经验来提高多个机器人的能力。
论文地址： https://arxiv.org/pdf/2310.08864

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation

机构： 北京大学、北京智源人工智能研究院（BAAI）
推荐理由：本文创新性地将视觉编码器与高效的 Mamba 语言模型集成，构建了全新的端到端机器人多模态大模型。

具身智能爆火的这一年里，最有影响力的10篇论文！

正文

数据来源

请到「今天看啥」查看全文