0. 这篇文章干了啥?
随着数据规模的扩大,大型语言模型(LLMs)的研究得到了显著推动,在自然语言处理(NLP)领域中的推理和泛化能力方面取得了显著进展。为了理解多模态信息,多模态大型语言模型(MLLMs)应运而生,它们为LLMs赋予了遵循视觉指令和场景理解的能力。受MLLMs在一般设置下强大能力的启发,最近的研究致力于将MLLMs集成到机器人操作任务中。一方面,一些工作使机器人能够理解自然语言和视觉场景,自动生成任务计划。另一方面,有效地利用了MLLMs的固有能力,赋予它们预测操作姿态的能力。
机器人操作涉及与动态环境中的物体进行交互,这需要类似人类的推理能力来理解场景的语义信息,以及稳健的低级动作预测能力。尽管现有的基于MLLM的方法能够处理一系列基本任务,但它们仍面临两方面的挑战。首先,预训练的MLLMs在机器人场景中的推理能力被发现是不足的。这种不足对微调后的机器人MLLMs在遇到复杂推理任务时构成了挑战。其次,微调MLLMs并使用它们生成机器人操作动作会带来更高的计算成本,因为它们的基于注意力的LLMs非常昂贵。为了平衡推理能力和效率,NLP领域涌现出了一些研究。特别地,Mamba引入了创新的选择性状态空间模型(SSM),在保持线性复杂度的同时促进了上下文感知的推理。受此启发,我们提出一个问题:“我们能否开发出一个高效的机器人MLLM,它不仅具备强大的推理能力,还能以非常经济高效的方式获得机器人操作技能?”
为了解决这个问题,我们提出了RoboMamba,这是一个端到端的机器人MLLM,它充分利用了Mamba的效率,以实现稳健的机器人推理和动作能力。我们首先将视觉编码器(如CLIP)与Mamba集成,使RoboMamba具备视觉常识和与机器人相关的推理能力。具体而言,我们进行了对齐预训练,激活了跨模态连接器,将视觉信息转换为Mamba的令牌嵌入。然后,我们对Mamba进行了解锁,以进行指令协同训练,利用其强大的序列建模能力来理解高级的机器人和一般指令数据。在此基础上,为了赋予RoboMamba动作姿态预测能力,我们探索了一种高效的微调策略,该策略包含一个简单的策略头。值得注意的是,我们发现一旦RoboMamba具备了足够的推理能力,它就可以通过最少的参数微调获得姿态预测技能。微调后的策略头仅占模型参数的0.1%,比现有的机器人MLLM小10倍。这样,RoboMamba就可以同时使用语言响应生成机器人推理,并通过策略头预测末端执行器的姿态。
下面一起来阅读一下这项工作~
1. 论文信息
标题:RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
作者:Jiaming Liu, Mengzhen Liu, Zhenyu Wang, Lily Lee, Kaichen Zhou, Pengju An, Senqiao Yang, Renrui Zhang, Yandong Guo, Shanghang Zhang
机构:北京大学、AI2Robotics
原文链接:https://arxiv.org/abs/2406.04339
代码链接:https://sites.google.com/view/robomamba-web
官方主页:https://sites.google.com/view/robomamba-web
2. 摘要
在机器人操作领域,一个基本目标是使模型能够理解视觉场景并执行动作。尽管现有的机器人多模态大型语言模型(MLLMs)能够处理一系列基本任务,但它们仍面临两大挑战:1)处理复杂任务时的推理能力不足;2)MLLM的微调(fine-tuning)和推理计算成本高昂。最近提出的名为Mamba的状态空间模型(SSM)在具有线性推理复杂度的非平凡序列建模方面展示了强大的能力。受此启发,我们引入了RoboMamba,一个端到端的机器人MLLM,它利用Mamba模型来实现机器人的推理和动作能力,同时保持高效的微调和推理。具体来说,我们首先将视觉编码器与Mamba模型集成,通过联合训练将视觉数据与语言嵌入对齐,从而使我们的模型具备视觉常识和与机器人相关的推理能力。为了进一步使RoboMamba具备动作姿态预测能力,我们探索了一种高效的微调策略,并加入了一个简单的策略头。我们发现,一旦RoboMamba具备了足够的推理能力,它就可以通过极少的微调参数(模型参数的0.1%)和极短的时间(20分钟)来掌握操作技能。在实验中,RoboMamba在一般和机器人评估基准上展示了出色的推理能力。同时,我们的模型在模拟和真实世界实验中均展示了令人印象深刻的姿态预测结果,其推理速度比现有的机器人MLLM快7倍。我们的项目网页为:https://sites.google.com/view/robomamba-web ,欢迎访问以获取更多详情和最新进展。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
3. 效果展示
为了系统地评估我们的端到端RoboMamba,我们在模拟和现实世界场景中进行了广泛的实验。首先,我们在一般性和机器人评估基准上评估了我们的推理能力。RoboMamba仅包含32亿个参数,便能在多个多模态大型语言模型(MLLM)基准上实现具有竞争力的性能,同时在RoboVQA(36.3 BLEU-4)上也取得了有前景的结果。凭借其强大的推理能力,RoboMamba在SAPIEN模拟中实现了最先进的(SOTA)操作性能,仅需7MB的策略头,并在单个A100 GPU上进行了不到20分钟的微调。此外,RoboMamba的推理速度比之前的SOTA机器人MLLM快7倍。另外,我们还在现实世界场景中评估了RoboMamba,它能够生成长期规划并预测每个原子任务的末端执行器姿态。
4. 主要贡献
综上所述,我们的贡献如下:
• 我们创新地将视觉编码器与高效的Mamba语言模型相结合,构建了端到端的RoboMamba,使其具备了视觉常识和与机器人相关的推理能力。
• 为了使RoboMamba具备动作姿态预测能力,我们探索了一种使用简单策略头的有效微调策略。我们发现,一旦RoboMamba获得了足够的推理能力,它便能够以最小的成本获得姿态预测技能。
• 在我们的广泛实验中,RoboMamba在一般性和机器人评估基准上的推理能力表现出色,并在模拟和现实世界实验中展示了令人印象深刻的姿态预测结果。
5. 基本原理是啥?
为了使RoboMamba同时具备视觉推理和操作能力,我们从预训练的大型语言模型(LLMs)和视觉模型出发,构建了一个有效的多模态大型语言模型(MLLM)架构。如图2所示,我们利用CLIP视觉编码器从输入图像I中提取视觉特征fv ∈ RB×N×1024,其中B和N分别代表批量大小和标记数量。我们没有采用视觉编码器集成技术,该技术使用各种主干网络(即DINOv2、CLIP-ConvNeXt、CLIP-ViT)来提取图像特征。集成技术会引入额外的计算成本,严重影响机器人MLLMs在现实世界的实用性。因此,我们证明了结合高质量数据和适当的训练策略,简单直接的模型设计同样可以实现强大的推理能力。为了使LLM能够理解视觉特征,我们使用多层感知机(MLP)将视觉编码器与LLM连接起来。通过这个简单的跨模态连接器,RoboMamba可以将视觉信息转换为语言嵌入空间fLv ∈ RB×N×2560。请注意,在机器人领域,模型效率至关重要,因为机器人需要根据人类指令迅速响应。因此,我们选择了Mamba作为我们的语言模型,因为它具有上下文感知的推理能力和线性计算复杂度。使用预训练的标记器将文本提示编码为嵌入空间ft ∈ RB×N×2560,然后与视觉标记进行拼接(cat)并输入到Mamba中。我们利用Mamba强大的序列建模能力来理解多模态信息,并采用有效的训练策略来开发视觉推理能力(如下一节所述)。然后,将输出标记Ta进行去标记化(det),以生成自然语言La的响应。
6. 实验结果
通用推理。如表1所示,我们在通用视觉问答(VQA)和最新的MLLM基准测试上将RoboMamba与之前的最先进(SOTA)MLLM进行了比较。首先,我们发现RoboMamba仅使用了一个27亿参数的语言模型,就在所有VQA基准测试中取得了令人鼓舞的结果。这些结果表明,我们简单的架构设计是有效的。对齐预训练和提出的指令协同训练显著增强了MLLM的推理能力。例如,由于在协同训练阶段引入了大量机器人数据,我们的模型在GQA基准测试中的空间识别性能得到了提升。同时,我们还在最近提出的MLLM基准测试上测试了RoboMamba。与之前的MLLM相比,我们发现我们的模型在所有基准测试中都取得了有竞争力的结果。值得注意的是,由于在协同训练阶段加入了LRV-Instruct数据集,我们的模型在POPE基准测试中取得了令人满意的结果,这有助于减少因幻觉导致的机器人动作失败。尽管RoboMamba在某些性能上仍低于LLaVA1.5和SPHINX,但我们优先考虑使用更小、更快的Mamba来平衡机器人模型的效率。在未来,我们计划为资源不受限的场景开发RoboMamba-7B。
如表2所示,与之前的SOTA ManipLLM相比,我们的RoboMamba在已见类别上实现了7.0%的改进,在未见类别上实现了2.0%的改进。此外,我们的方法在20个已见类别中的14个类别上展示了SOTA性能,凸显了其在预测动作姿态方面的有效性和稳定性。对于未见类别,最近三种基于MLLM的方法——RoboFlamingo、ManipLLM和我们的方法——都取得了令人鼓舞的性能。结果表明,利用MLLM的强大泛化能力可以有效提高策略的泛化能力,同时提高未见对象的准确性。在效率方面,RoboFlamingo更新了35.5%(18亿)的模型参数,ManipLLM更新了一个包含模型参数0.5%的适配器(4130万),而我们微调的简单策略头(370万)仅占模型参数的0.1%。RoboMamba在更新参数数量上比之前的基于MLLM的方法少10倍,同时实现了7倍的推理速度。这些结果表明,RoboMamba不仅具备强大的推理能力,而且能够以经济高效的方式获得操作能力。
7. 总结 & 未来工作
在本文中,我们介绍了一个名为RoboMamba的端到端机器人多模态大型语言模型(MLLM),该模型既具备推理能力又具备操作能力。基于我们的RoboMamba,我们只需对模型的一个简单策略头(占模型0.1%)进行大约20分钟的微调,即可赋予其新的操作技能。这一发现揭示了如何高效地使MLLM具备操作能力,同时又不损害其固有的推理能力。最后,RoboMamba在通用和机器人相关的评估基准上都表现出卓越的推理能力,并展示了令人印象深刻的姿态预测结果。
对于未来的计划,我们主要关注两个方向:1)在机器人操作微调过程中,我们旨在引入持续学习技术,以在现实世界中不断增强模型的操作能力。2)构建3D机器人MLLM,因为3D点云包含更多几何信息,有助于预测3D操作姿态。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球