专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
财宝宝  ·  好冷-20250208123759 ·  2 天前  
国际金融报  ·  中概股,逆市大涨! ·  2 天前  
财宝宝  ·  应该怎么做一个男人? ... ·  3 天前  
大道无形我有型  ·  回复@A大师-懒惰的投资人: Cam ... ·  3 天前  
岳阳晚报社  ·  事关楼市!岳阳新增12条措施 ·  4 天前  
51好读  ›  专栏  ›  计算机视觉工坊

成功率+55%!微软&清华开源CogACT:迈向具身智能的通用视觉-语言-动作模型

计算机视觉工坊  · 公众号  ·  · 2024-12-04 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation

作者:Qixiu Li, Yaobo Liang, Zeyu Wang, Lin Luo, Xi Chen, Mozheng Liao, Fangyun Wei, Yu Deng, Sicheng Xu, Yizhong Zhang, Xiaofan Wang, Bei Liu, Jianlong Fu, Jianmin Bao, Dong Chen, Yuanchun Shi, Jiaolong Yang, Baining Guo

机构:Microsoft Research Asia、Tsinghua University、USTC、Institute of Microelectronics, CAS

原文链接:https://arxiv.org/abs/2411.19650

代码链接:https://cogact.github.io/

1. 导读

大型视觉-语言-动作(VLA)模型的发展极大地改善了机器人在语言引导的任务执行和对未知场景的概括方面的操作。尽管从预训练的大型视觉语言模型(VLM)改编的现有vla已经展示了有前途的可推广性,但是它们的任务性能仍然不令人满意,不同环境中的低任务成功率表明了这一点。在这篇文章中,我们提出了一个新的先进的VLA建筑源自VLM。与以前的工作不同,以前的工作通过简单的动作量化直接将VLM重新用于动作预测,我们提出了一种组件化的VLA架构,它具有以VLM输出为条件的专用动作模块。我们系统地研究了动作模块的设计,并展示了扩散动作转换器对动作序列建模的强大性能增强,以及它们良好的缩放行为。我们还进行了全面的实验和消融研究,以评估不同设计的模型的功效。在仿真和实际工作中对5个机器人实例的评估表明,我们的模型不仅在任务性能上明显优于现有的vla,而且在对新机器人的适应性和对未知物体和背景的泛化能力方面也表现出显著的优势。在模拟评估中,它超过了与我们的模型大小(7B)相似的OpenVLA的平均成功率35%以上,在真实机器人实验中超过了55%。在模拟中,它也比大型RT-2-X模型(55B)高出18%的绝对成功率。

2. 引言

近年来,配备视觉能力的机器人控制模型引起了广泛关注。其中,大规模视觉-语言-动作(Vision-Language-Action,VLA)模型的发展尤为引人注目,这些模型使机器人能够执行由自然语言指令引导的复杂任务,并有可能管理偏离训练分布的对象或环境。此外,通过微调,它们还能迅速适应新任务和实体。

大型VLA模型显著的泛化能力可归因于其庞大的模型规模以及作为其基础的强大视觉-语言模型(Vision-Language-Models,VLM)。这些VLM通常在互联网规模的海量图像-文本对上进行预训练,在将VLA泛化到新颖对象和语义多样的指令方面发挥着至关重要的作用。

现有的大型VLA模型通常以简单的方式将VLM应用于动作预测,由此引发了一些阻碍任务性能的问题。一些研究直接根据VLM的下一个标记预测方案,将机器人动作的连续谱量化到离散区间中。然而,这种简单的量化方法,不同于为图像和音频设计的复杂分词器,给动作学习带来了困难,并限制了动作的精确度。转向基于回归的学习方案却忽视了动作的概率性和多模态性。

在本文中,我们提出了一种源自VLM的新型VLA模型架构。我们不是将预训练的VLM重新用于动作预测,而是利用VLM提取的认知信息来指导专门动作模块的动作预测过程。为了处理动作信号的固有特性——连续性、多模态性、时间相关性和高精度要求——我们采用先进的基于扩散的Transformer(Diffusion-based Transformers,DiT)作为动作模块,并通过注意力机制以VLM输出为前提条件进行预处理。

我们设计的直觉在于将“认知”和“动作”能力解耦。虽然大型VLM从海量文本和图像中学习到了广泛的视觉和语义知识,但认知能力和输出语言模态与密集的机器人动作之间存在根本性差异。我们并不主张直接重新利用VLM,而是提倡设计具有专用动作模块的组件化VLA。该动作模块专门用于以认知模型输出为前提条件对动作信号进行建模。我们通过端到端训练或微调来协同认知与动作能力。因此,我们的方法被命名为CogACT。 推荐课程: 国内首个面向具身智能方向的理论与实战课程

我们系统地研究了动作模块的不同主干架构及其在模型规模上的可扩展性,并得出了一些重要见解。例如,研究发现,基于扩散Transformer的序列建模在性能上显著优于单步动作预测。更重要的是,我们发现了动作模块与扩散Transformer结合时表现出的有利扩展行为:增加数亿个参数(与70亿参数的VLM基础模型相比相对较少)就能带来显著的性能提升。这一发现表明,专用动作模块具有优势,为VLA模型扩展提供了更高效的方法。

除了对动作模块设计的研究外,我们还介绍了一些具有独立研究价值的配套算法。我们提出了一种自适应动作集成(Adaptive Action Ensemble,AAE)算法,以自适应方式融合过去的动作预测,从而带来了显著的性能提升。我们在Open X-Embodiment数据集[48]上训练了我们的VLA模型,并在模拟和真实机器人基准测试上对其进行了评估。综合评估与比较表明,我们的模型性能卓越,远超现有VLA模型。

3. 效果展示

(a) 在使用谷歌机器人、WidowX机器人、Realman机器人和Franka机器人等不同类型的机器人时,我们的模型与RT-1、RT-1-X、RT-2-X、Octo和OpenVLA在模拟基准测试(前三张图表)和真实世界评估(后三张图表)中的成功率(%)对比。所有模型均在庞大的Open X-Embodiment数据集上进行训练(RT-1除外,它仅在谷歌机器人子集上进行训练),并在少量真实机器人实验数据上进行微调。(b) 缩放行为:在SIMPLER上关于动作模块大小的成功率平均值。(c) Realman机器人执行涉及连续堆叠多个杯子以及拾取和放置未见物体的任务的示例。

4. 主要贡献

本文的主要贡献总结如下:

• 我们将动作扩散过程整合到大规模VLA模型中。

• 我们提出了组件化VLA模型架构,并研究了大型动作模块的设计及其扩展行为。

• 我们提出了一种自适应动作集成算法,该算法简单且对时间融合有效。

• 我们的模型性能明显优于之前的VLA模型,展现出对新机器人和任务的快速适应性以及对未见对象和背景的有效生成能力。

5. 方法

我们的所有代码和模型均已公开发布。为了有效处理复杂的视觉观测和语言指令,并将其协同转换为精确动作,我们将模型π分解为三个部分:视觉模块、语言模块和动作模块,如图2所示。

6. 实验结果

谷歌机器人实验。表1显示了我们的模型在谷歌机器人上四个任务中的成功率,并与现有视觉-语言动作(VLA)模型在SIMPLER设置下的表现进行了比较。我们的模型在两个设置中都取得了最高的平均成功率,在视觉匹配(Visual Matching)中达到74.8%,在变体聚合(Variant Aggregation)中达到61.3%。值得注意的是,我们的模型甚至优于在谷歌机器人特定数据集上训练的RT-1,在视觉匹配中平均成功率高出22.4%,在变体聚合中高出17.6%。此外,尽管我们的模型要小得多(有76亿个参数),但平均成功率却显著超过了RT-2-X(有550亿个参数)。

WidowX机器人实验。表2展示了在WidowX机器人上使用SIMPLER环境中的视觉匹配设置时,我们的模型与其他方法的评估结果对比。我们的模型也取得了最高的平均成功率,为51.3%,远超其他模型。

表3展示了我们的模型与Octo-Base和OpenVLA的比较。为了公平评估,所有模型都在OXE数据集上进行预训练,并使用我们收集的演示数据进行后续微调。我们的模型取得了显著改进,在成功率上比OpenVLA高出59.1%。

7. 总结

我们提出了一种大型视觉-语言动作(VLA)模型,该模型专注于动作建模。与以往简单地将视觉-语言模型用于动作预测的VLA不同,CogACT将认知能力和动作能力分开,使用先进的扩散变换器(Diffusion Transformers)作为专用的动作模块。这种方法有效地解决了机器人动作的连续性、多模态性和时间相关性,从而在性能和泛化能力上取得了实质性提升。

我们的研究结果表明,组件化的VLA模型具有显著优势,其中大型视觉-语言模型(VLM)作为认知基础,而扩散变换器(DiT)动作模块则负责精确的顺序动作预测。我们观察到动作模块具有良好的缩放行为,即适度的参数增加能带来显著的性能提升。广泛的实验表明,我们的模型不仅在任务性能上显著优于现有的VLA,而且还展现出对未见物体和背景的出色生成能力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文