吊打14倍参数量的OpenVLA！揭秘清华通用具身智能框架UniAct

3DCV · 公众号 · · 2025-02-13 11:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

本次分享我们邀请到了清华大学博士生 郑金亮 ，为大家详细介绍他的工作： UniAct 。如果您有相关工作需要分享，欢迎文末联系我们。

Universal Actions for Enhanced Embodied Foundation Models
主页： https://2toinf.github.io/UniAct/
论文： https://arxiv.org/abs/2501.10105
代码： https://github.com/2toinf/UniAct

直播信息

时间

2025年 2月13日 (周四) 19：00

主题

UniAct：消除异质性，跨域跨具身泛化，性能超越14倍参数量的OpenVLA

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号 也将同步直播

主讲嘉宾

郑金亮

清华大学智能产业研究院(AIR)博士二年级。研究方向为计算机视觉与具身智能。以第一，共一作者发表ICML, NeurIPS, CVPR等多篇顶会论文，曾获ICML 2024 MFM- EAI workshop杰出论文奖。担任NeurIPS, CVPR, ICLR, ICML等学术期刊及会议审稿人。

个人主页 ： https://scholar.google.com/citations?user=3j5AHFsAAAAJ&hl=zh-CN

直播大纲

基于多样化、互联网规模的数据进行训练是大模型成功的关键因素。然而，在构建具身智能体(embodied agents)时采用相同的方法却遇到了明显的困难。尽管存在大量的具身数据集，但由于不同机器人具有不同的物理具身形态和控制接口，这些数据集的动作空间往往表现出显著的异质性，从而在利用跨域数据开发具身基础模型时带来了巨大挑战。我们这里介绍了UniAct，一个在tokenized的通用动作空间中运行的新型具身基础模型框架。学习的通用动作通过利用不同机器人共有的结构特征，捕捉了它们在不同情境下的通用基本行为，并通过消除臭名昭著的异质性，实现了增强的跨域数据利用和跨具身泛化。通过将特定于具身的细节简单添加进去，这些通用动作就可以高效地转换回异质的可执行指令，从而使得快速适应新机器人变得简单直接。在大量针对各种现实和模拟机器人的评估中，我们UniAct的0.5B实例化模型在性能上超过了比其大14倍的最先进的具身基础模型，展现了卓越的跨具身控制和适应能力，凸显了采用通用动作的关键优势。