点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
本次分享我们邀请到了清华大学博士生
郑金亮
,为大家详细介绍他的工作:
UniAct
。如果您有相关工作需要分享,欢迎文末联系我们。
Universal Actions for Enhanced Embodied Foundation Models
主页
:
https://2toinf.github.io/UniAct/
论文
:
https://arxiv.org/abs/2501.10105
代码
:
https://github.com/2toinf/UniAct
直播信息
时间
2025年
2月13日
(周四)
19:00
主题
UniAct:消除异质性,跨域跨具身泛化,性能超越14倍参数量的OpenVLA
直播平台
3D视觉工坊哔哩哔哩
扫码观看直播,或前往B站搜索3D视觉工坊观看直播
3D视觉工坊视频号
也将同步直播
主讲嘉宾
郑金亮
清华大学智能产业研究院(AIR)博士二年级。研究方向为计算机视觉与具身智能。以第一,共一作者发表ICML, NeurIPS, CVPR等多篇顶会论文,曾获ICML 2024 MFM- EAI workshop杰出论文奖。担任NeurIPS, CVPR, ICLR, ICML等学术期刊及会议审稿人。
个人主页
:
https://scholar.google.com/citations?user=3j5AHFsAAAAJ&hl=zh-CN
直播大纲
基于多样化、互联网规模的数据进行训练是大模型成功的关键因素。然而,在构建具身智能体(embodied agents)时采用相同的方法却遇到了明显的困难。尽管存在大量的具身数据集,但由于不同机器人具有不同的物理具身形态和控制接口,这些数据集的动作空间往往表现出显著的异质性,从而在利用跨域数据开发具身基础模型时带来了巨大挑战。我们这里介绍了UniAct,一个在tokenized的通用动作空间中运行的新型具身基础模型框架。学习的通用动作通过利用不同机器人共有的结构特征,捕捉了它们在不同情境下的通用基本行为,并通过消除臭名昭著的异质性,实现了增强的跨域数据利用和跨具身泛化。通过将特定于具身的细节简单添加进去,这些通用动作就可以高效地转换回异质的可执行指令,从而使得快速适应新机器人变得简单直接。在大量针对各种现实和模拟机器人的评估中,我们UniAct的0.5B实例化模型在性能上超过了比其大14倍的最先进的具身基础模型,展现了卓越的跨具身控制和适应能力,凸显了采用通用动作的关键优势。