0. 论文信息
标题:Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation
作者:Yueru Jia, Jiaming Liu, Sixiang Chen, Chenyang Gu, Zhilue Wang, Longzan Luo, Lily Lee, Pengwei Wang, Zhongyuan Wang, Renrui Zhang, Shanghang Zhang
机构:Peking University、Beijing Academy of Artificial Intelligenc
原文链接:https://arxiv.org/pdf/2411.18623
代码链接:https://github.com/PKU-HMI-Lab/EAI-Representation-Learning
1. 导读
3D几何信息对于操作任务是必不可少的,因为机器人需要感知3D环境,推理空间关系,并与复杂的空间配置进行交互。最近的研究越来越多地集中在3D特征的显式提取上,同时仍然面临挑战,例如缺乏大规模机器人3D数据和空间几何的潜在损失。为了解决这些限制,我们提出了Lift3D框架,该框架通过隐式和显式3D机器人表示来逐步增强2D基金会模型,以构建稳健的3D操纵策略。具体来说,我们首先设计了一个任务感知的掩蔽自动编码器,它掩蔽任务相关的启示补丁并重建深度信息,增强2D基金会模型的隐式3D机器人表示。在自我监督微调之后,我们引入2D模型提升策略,该策略在输入3D点和2D模型的位置嵌入之间建立位置映射。基于映射,Lift3D利用2D基金会模型直接编码点云数据,利用大规模预训练的知识来构建显式的3D机器人表示,同时最大限度地减少空间信息损失。在实验中,Lift3D在几个模拟基准和真实场景中始终优于以前的最先进方法。
2. 引言
基于视觉的操控策略的一个基本目标是理解场景并预测相应的三维姿态。一些现有方法利用二维图像作为输入,通过强化学习或模仿学习直接预测三维末端执行器的姿态。尽管这些方法能够有效处理一系列操控任务,但它们却未能充分理解物理世界中的空间关系和三维结构。在机器人操控中,三维几何信息对于解决复杂任务至关重要,因为机器人必须感知三维环境、推理几何关系,并与复杂的空间配置进行交互。
近期研究越来越关注在机器人操控任务中显式提取三维特征表示,这可以分为两类。一方面,一些方法直接编码点云数据,要么从零开始训练三维策略模型,要么对预训练的点云编码器(如PointNet++和PointNext)进行微调。然而,大规模机器人三维数据和基础模型的有限可用性限制了它们的泛化能力。此外,处理三维或体素特征会带来巨大的计算成本,阻碍了在实际应用中的可扩展性和实用性。另一方面,一些方法涉及模态转换,如将预训练的二维特征提升到三维空间,或将三维点云投影为多视图图像,以输入到预训练的二维模型中。尽管这些方法在几个下游操控任务中表现出良好的性能,但这些模态转换不可避免地会导致空间信息的丢失,从而阻碍了机器人理解三维空间关系的能力。鉴于上述三维策略面临的挑战,我们提出一个问题:“
我们能否开发一种三维策略模型,既能整合大规模预训练知识,又能融入完整的三维空间数据输入?
”
为了回答这个问题,我们提出了Lift3D框架,该框架将基于Transformer的二维基础模型(如DINOV2或CLIP)逐步升级为稳健的三维操控策略。Lift3D的关键见解首先是增强隐式的三维机器人表示,随后对点云数据进行显式编码,用于策略模仿学习。对于隐式的三维机器人表示,我们设计了一个任务感知的掩码自编码器(MAE),该编码器处理二维图像并以自监督方式重建三维几何信息)所示。具体来说,我们利用来自机器人操控的大规模未标记数据集,并利用多模态模型(即CLIP)基于任务文本描述提取图像注意力图。这些注意力图随后被反向投影到二维输入上,以指导MAE的掩码策略,聚焦于与任务相关的功能区域。重建掩码标记的深度增强了二维基础模型的三维空间感知能力,从而促进了后续的点云模仿学习。
对于显式的三维机器人表示,我们提出了一种二维模型提升策略,该策略直接利用二维基础模型对三维点云数据进行编码。具体来说,受虚拟相机设置的启发,我们首先将点云数据投影到多个虚拟平面上。然而,我们的投影过程并不是为了构建策略模型的输入,而是为了在输入的三维点与每个虚拟平面的预训练二维位置嵌入(PEs)之间建立位置对应关系。在位置映射的指导下,二维基础模型可以使用其原始PEs对点云数据进行编码,从而使模型能够基于其大规模预训练知识提取三维特征。与以往方法不同,Lift3D在模仿学习过程中消除了模态转换,最大限度地减少了机器人空间信息的损失,同时通过直接利用二维基础模型进行前向传播降低了计算成本。通过两阶段训练过程,Lift3D通过系统地改进隐式和显式三维机器人表示,增强了二维基础模型的稳健三维机器人操控能力。
为了全面评估我们提出的Lift3D,我们在三个模拟基准测试和几个真实场景中进行了大量实验,包括30多个不同的夹持器和灵巧手操控任务。我们比较了各种基线方法,如机器人二维表示方法、三维表示方法和三维模仿学习策略。即使在使用最简单的多层感知器(MLP)策略头和单视图点云的情况下,Lift3D也始终优于其他方法,这证明了我们的模型在操控能力方面的稳健性和对机器人三维空间感知的理解。例如,在Meta-World和Adroit基准测试中,Lift3D的平均成功率分别比先前最先进的三维策略方法提高了18.2%和21.3%。我们还探索了模型在多个复杂任务上的可扩展性,逐步增加了二维基础模型的参数。在真实世界实验中,Lift3D每个任务仅需30个训练回合即可学习新的操控技能。为了评估Lift3D的泛化能力,我们将训练集中不同的操控实例、背景场景和光照条件融入到真实世界的测试过程中。Lift3D显示出强大的泛化能力,有效利用了二维基础模型的大规模预训练知识和全面的三维机器人表示。
3. 效果展示
Lift3D通过任务相关的启示掩蔽和深度重建来优化隐式3D机器人表示,从而为2D基金会模型提供3D操作功能,同时通过利用预训练的2D位置嵌入来编码点云来增强显式3D机器人表示。Lift3D在各种模拟和现实世界任务中实现了鲁棒性和令人惊讶的有效性。
展示了Lift3D在真实世界实验中的定性结果,包括输入点云示例、操纵进度和任务完成结束状态。
4. 主要贡献
我们的贡献如下:
• 我们提出了Lift3D,它通过系统地改进隐式和显式三维机器人表示,将二维基础模型升级为构建三维操控策略。
• 对于隐式的三维机器人表示,我们设计了一个任务感知的MAE,该MAE对与任务相关的功能区域进行掩码处理,并重建深度几何信息,从而增强了二维基础模型的三维空间感知能力。
• 对于显式的三维机器人表示,我们提出了一种二维模型提升策略,该策略利用二维基础模型的预训练PEs对三维点云数据进行编码,以进行操控模仿学习。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
5. 方法
Lift3D的总体流程。a)对于隐式的三维机器人表示,我们利用CLIP[61]根据任务描述离线提取图像注意力图,这些图被反向投影到二维输入上,以指导MAE的掩码。然后,我们将可见标记输入到二维基础模型中提取特征。掩码标记和编码后的可见标记由MAE解码器处理以进行深度重建,从而增强三维空间感知。同时,编码后的可见标记也使用现成的预训练模型中的相应特征进行蒸馏,以缓解灾难性遗忘。b)对于显式的三维机器人表示,我们首先将点云数据投影到多个虚拟平面上,在输入的三维点与每个虚拟平面上的二维位置嵌入(PEs)之间建立位置映射。映射后,我们对每个三维补丁对应的二维PEs进行平均,以形成统一的位置指示器(三维PEs),然后将其与三维标记集成。这些三维标记是通过将点云输入到轻量级三维分词器中生成的。最后,二维基础模型的输出特征通过策略头进行处理,以预测模仿学习的姿态。
6. 实验结果
在表1中,Lift3D(CLIP)在MetaWorld基准测试中实现了83.9%的平均成功率,其中在中级任务上准确率为78.8%,在困难级任务上准确率为82.0%。与其他机器人表示方法相比,Lift3D将平均成功率提高了8.8%(相较于表现最佳的2D方法)和14.4%(相较于表现最佳的3D方法)。此外,与先前的最优3D策略(DP3)相比,Lift3D的准确率提高了18.6%。这些结果表明,Lift3D通过强大的操作能力有效增强了2D基础模型,利用大规模预训练知识实现了对机器人3D场景的深入理解。此外,与先前的机器人表示和策略方法相比,Lift3D在灵巧手部任务上也表现出优越的性能。请注意,灵巧手部的自由度(Degrees of Freedom, DoF)因任务而异,锤子、门和笔任务的自由度分别为26、28和24。结果表明,由于强大的3D机器人表示能力,我们的方法对于更复杂的灵巧手部操作任务也有效。Lift3D(DINOV2)同样展现出了令人鼓舞的结果,证明了该方法对于其他2D基础模型的实用性。
在表2中,我们对两个MetaWorld模拟任务(组装和关箱)进行了一系列消融实验,并计算了平均操作准确率。对于任务感知掩码自编码器(Masked Autoencoders, MAE),在Ex2至Ex4中,我们观察到深度和RGB+深度重建的表现优于Ex1,成功率分别为6和5,而单独的RGB重建并未显示出显著改进。这凸显了在操作任务中重建几何信息的重要性,促使我们选择深度作为我们的重建目标。通过比较Ex2和Ex5,我们发现功能导向的掩码策略相较于随机掩码策略将成功率提高了4,这表明专注于与任务相关的功能区域以学习几何信息更为高效。与Ex5相比,采用视觉标记蒸馏(Ex6)进行预训练导致额外提高了8,这表明在为2D基础模型赋予隐式3D机器人感知能力时,防止预训练知识的灾难性遗忘至关重要。对于2D模型提升策略,与采用图像输入的Ex1相比,Ex7引入了我们的提升策略,通过显式点云编码实现了显著提升。结果表明,3D空间信息对于实现稳健操作至关重要。Ex8相较于Ex7也表现出明显改进,验证了我们的隐式3D表示学习可以促进后续的显式3D模仿学习。最后,与Ex8相比,Ex9采用了新引入的位置嵌入(Position Embeddings, PEs)而未进行预训练,性能下降了6,验证了我们的提升策略最有效地利用了大规模2D预训练知识。
7. 总结
本文介绍了一种名为Lift3D的新型框架,该框架将大规模预训练的2D基础模型与强大的3D操作能力相结合。首先,我们设计了一种任务感知掩码自编码器,该编码器掩蔽与任务相关的功能区域并重建深度几何信息,从而增强了隐式3D机器人表示。其次,我们提出了一种2D模型提升策略,该策略利用预训练的2D基础模型对3D点云数据进行显式编码,以进行操作模仿学习。在模拟和真实世界实验中,Lift3D始终优于现有方法,在多种真实世界场景中展现出强大的泛化能力。就局限性而言,我们的Lift3D框架专注于将2D视觉模型提升到3D操作任务,这意味着它无法理解语言条件。然而,我们的方法可以适应像CLIP这样的多模态模型,使Lift3D编码器能够与语言模型集成,从而为新的3D视觉-语言-动作模型铺平道路。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球