专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
51好读  ›  专栏  ›  3DCV

精通100多任务!成功率97.7%!字节开源GR-2:机器人操作的通才具身智能

3DCV  · 公众号  ·  · 2024-10-16 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

作者:Chi-Lam Cheang, Guangzeng Chen, Ya Jing, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Hongtao Wu, Jiafeng Xu, Yichu Yang, Hanbo Zhang, Minzhao Zhu

机构:ByteDance Research

原文链接:https://arxiv.org/abs/2410.06158

代码链接:https://gr1-manipulation.github.io/

官方主页:https://gr2-manipulation.github.io/

1. 导读

我们提出GR-2,一个国家的艺术通才机器人代理人的多功能和通用的机器人操作。GR-2首先在大量互联网视频上进行预训练,以捕捉世界的动态。这种大规模的预训练涉及3800万个视频剪辑和超过500亿个令牌,使GR-2能够在后续的策略学习中概括广泛的机器人任务和环境。在此之后,GR-2被微调用于视频生成和使用机器人轨迹的动作预测。它展示了令人印象深刻的多任务学习能力,在超过100个任务中平均成功率达到97.7%。此外,GR-2展示了对新的、以前未见过的场景的异常概括,包括新的背景、环境、物体和任务。值得注意的是,GR-2随着模型大小有效地扩展,强调了其持续增长和应用的潜力。

2. 引言

大容量基础模型的兴起对语言、图像和视频处理任务的成功做出了巨大贡献。这些模型最初在大规模多样化数据集上进行预训练,随后可以适应特定的下游任务,使其在应用上具有通用性。这一范式使得这些模型能够在不同输入(例如,语言提示)的条件下,使用单一通用模型解决各种任务。

遵循其他领域已建立的基础模型,我们的目标是通过对综合数据集进行大规模预训练来开发一个基础通用操控代理。这将使其能够通过高效的微调快速适应各种新颖的操控任务。一个通用操控代理应该能够执行广泛的操控技能。更重要的是,它应该在新技能获取和干扰处理方面表现出色。尽管人工智能近期取得了进展,并转向了数据驱动的学习,但由于数据收集方法效率低下以及真实机器人系统的可扩展性有限,收集大规模机器人数据仍然是一个重大挑战。研究表明,在视频生成上进行预训练可以有效地将有价值的知识从视频转移到策略学习中,从而提高动作预测能力。

本报告介绍了GR-2,这是我们之前模型的升级版,具有改进的性能和扩展的功能。为实现这一目标,我们在一个包含不同场景(家庭、户外、工作场所、休闲等)中各种日常人类活动的广泛视频数据集上对GR-2进行了预训练。预训练的主要目标很直接:给定文本描述和视频帧,模型根据文本预测后续帧。通过掌握这一自回归预测任务,我们预期模型能够捕捉到对下游策略学习至关重要的关键时间动态和语义信息。通过对机器人轨迹进行微调,GR-2展示了学习多项操控任务并适应新场景(包括新背景、环境、物体和任务)的能力。值得注意的是,GR-2仅从一个包含5000条轨迹的数据集(平均每项任务50条轨迹)中高效地学习了100多项任务。这显著降低了在应用中获取新技能和适应新环境的成本。此外,GR-2在端到端的分拣设置中对未见物体具有出色的泛化能力,凸显了其在工业应用中的强大潜力。

3. 效果展示

GR-2能够以非常高的成功率完成105个操纵任务,展示了强大的多任务学习能力。我们还在挑战性场景中评估了GR-2,包括干扰物、看不见的背景、看不见的环境和看不见的操纵。GR-2能够正确处理干扰物和注意目标物体,它在看不见的背景和环境中取得了很高的成功率,展示了强大的泛化能力。GR-2还能够执,行在机器人训练数据中看不到的操作,我们强调GR-2也能够有效地学习105个任务,每个任务只给50个轨迹。这大大降低了在现实应用中获取新技能和适应新环境的成本。

4. 主要贡献

具体而言,GR-2在GR-1的基础上进行了几项关键改进:

• GR-2在3.8亿条文本-视频数据(总计超过500亿个标记)上进行预训练,能够完成100多项操控任务,并对100多个物体进行分拣。它显著扩大了预训练数据的规模和任务数量。

• 我们开发了一种新颖的模型架构,使得从预训练中收集的知识能够以无损的方式无缝转移到下游微调中。该模型在处理具有挑战性的泛化设置中的多个任务时表现出强大的可扩展性。

• 对于真实机器人的部署,我们引入了一种结合轨迹优化和实时运动跟踪的全身控制(WBC)算法。

5. 方法

GR-2是一种以语言为条件的视觉操作策略。训练经历两个阶段:视频生成预训练和机器人数据微调。在预训练期间,我们在包含不同背景下不同日常人类活动的精选大规模视频数据集上训练GR-2进行视频生成。通过掌握视频生成,GR-2捕获了关键的时间动态和语义信息,这对下游的策略学习是必不可少的。在微调期间,我们在机器人数据上训练GR-2,以预测串联的动作轨迹和视频。由于采用了新颖的模型架构,在预训练阶段收集的知识可以无损方式转移到微调阶段。我们强调,与预训练数据中只有单个摄像机视图的视频不同,机器人数据通常包含多个视图。GR-2被设计用来优雅地处理多个视图。GR-2在笛卡尔空间生成动作轨迹。为了确保机械臂精确地跟随轨迹,我们开发了全身控制(WBC)算法,该算法采用轨迹优化进行运动跟踪。

6. 实验结果

多任务学习的视频预测(Pred)和地面实况(GT)展开(二)。我们展示了自回归视频预测,以及从现实世界中捕获的相应地面实况视频。 推荐课程: 国内首个面向具身智能方向的理论与实战课程

7. 总结 & 未来工作

我们提出了GR-2,这是一种生成式机器人视频-语言-动作模型,能够有效学习多种任务,并能泛化到未见过的场景。GR-2首先使用3800万段互联网视频进行视频生成的预训练。随后,它在机器人数据上进行微调,以并行预测动作轨迹和视频。该模型展示了强大的多任务学习能力,在真实世界中以高成功率成功完成了100多种不同的操作任务。它对新场景具有良好的泛化能力,包括未见过的背景、环境、物体和任务。此外,GR-2能够以端到端的方式对超过100个物体执行分拣操作,并对未见物体表现出非凡的鲁棒性。我们观察到生成的视频与伴随预测的动作之间存在强烈的相关性。未来,我们计划增强动作预测的泛化能力和鲁棒性,特别关注提高在未见操作上的性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

这里给大家推荐一门我们最新的课程 国内首个面向具身智能方向的理论与实战课程》







请到「今天看啥」查看全文