专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
51好读  ›  专栏  ›  3DCV

吊打14倍参数量的OpenVLA!揭秘清华通用具身智能框架UniAct

3DCV  · 公众号  ·  · 2025-02-13 11:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

本次分享我们邀请到了清华大学博士生 郑金亮 ,为大家详细介绍他的工作: UniAct 。如果您有相关工作需要分享,欢迎文末联系我们。

Universal Actions for Enhanced Embodied Foundation Models
主页 https://2toinf.github.io/UniAct/
论文 https://arxiv.org/abs/2501.10105
代码 https://github.com/2toinf/UniAct

直播信息

时间

2025年 2月13日 (周四) 19:00

主题

UniAct:消除异质性,跨域跨具身泛化,性能超越14倍参数量的OpenVLA

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

3D视觉工坊视频号 也将同步直播

主讲嘉宾

郑金亮

清华大学智能产业研究院(AIR)博士二年级。研究方向为计算机视觉与具身智能。以第一,共一作者发表ICML, NeurIPS, CVPR等多篇顶会论文,曾获ICML 2024 MFM- EAI workshop杰出论文奖。担任NeurIPS, CVPR, ICLR, ICML等学术期刊及会议审稿人。

个人主页 https://scholar.google.com/citations?user=3j5AHFsAAAAJ&hl=zh-CN

直播大纲

基于多样化、互联网规模的数据进行训练是大模型成功的关键因素。然而,在构建具身智能体(embodied agents)时采用相同的方法却遇到了明显的困难。尽管存在大量的具身数据集,但由于不同机器人具有不同的物理具身形态和控制接口,这些数据集的动作空间往往表现出显著的异质性,从而在利用跨域数据开发具身基础模型时带来了巨大挑战。我们这里介绍了UniAct,一个在tokenized的通用动作空间中运行的新型具身基础模型框架。学习的通用动作通过利用不同机器人共有的结构特征,捕捉了它们在不同情境下的通用基本行为,并通过消除臭名昭著的异质性,实现了增强的跨域数据利用和跨具身泛化。通过将特定于具身的细节简单添加进去,这些通用动作就可以高效地转换回异质的可执行指令,从而使得快速适应新机器人变得简单直接。在大量针对各种现实和模拟机器人的评估中,我们UniAct的0.5B实例化模型在性能上超过了比其大14倍的最先进的具身基础模型,展现了卓越的跨具身控制和适应能力,凸显了采用通用动作的关键优势。







请到「今天看啥」查看全文