在机器人学习中,采用何种场景表示能提升其性能和鲁棒性?
近期学术界的研究表明,将二维RGB图像作为输入可以使机器人执行复杂的操作任务。然而,这一方法的隐含假设是相机视角在训练和测试过程中保持不变。正如我们展示的,即使相机视角的微小变化也会显著降低学习代理的性能。相机与机器人基座或末端执行器之间的固定相对姿态是一个不尽如人意的要求。作为人类,我们能够在不固定眼睛相对于手的位置的情况下轻松完成相同的任务。我们甚至能够远程操作机器人在完全不同的视角下完成任务。不幸的是,大多数现有的学习代理缺乏对于策略鲁棒性至关重要的三维理解能力。
直接在三维表示(如体素或点云)上进行学习已经取得了有前景的结果,但如果学习代理能够利用海量的二维数据和易于访问的预训练视觉基础模型,那么这将是最优的选择。近期在将语义信息集成到神经三维表示中的进展显示出在启用诸如语言条件抓取和目标条件重排等任务方面的潜力。然而,当面对动态场景和更高频率(如30Hz控制)的要求时,这些方法会遇到困难,限制了它们的普遍适用性。
挑战的核心在于构建语义三维表示的资源密集型需求,对于被动视觉应用而言,这已经是计算和内存密集型的。机器人领域又增加了一个时间维度,要求控制器至少以10Hz的频率进行实际操作。动态世界实时更新的不可或缺要求使得机器人领域的三维表示需求呈指数级增长。然而,对机器人任务的仔细研究揭示了一个潜在的解决方案。更新之间场景内的变化主要是局部的,这表明逐步场景重建可能不仅效率低下,而且没有必要。通过过渡到可局部更新的场景表示,我们可以直接解决计算挑战的核心问题。从连续的全局重建转向有针对性的局部更新,这一转变极大地减少了保持语义和动态三维表示所带来的开销,其中大部分计算在初始化时完成。
在这种情况下,高斯溅射(Gaussian splatting)作为一种动态三维场景表示方法脱颖而出。该方法起源于新视角合成,采用一组三维高斯基元对场景进行建模。这种显式且体积化的表示允许对构建的场景进行局部更新。此外,它依赖光栅化进行渲染,利用GPU上的并行处理显著加快渲染速度。然而,将高斯溅射应用于机器人领域也面临着一系列挑战。虽然它提供了速度优势,但缺乏场景的语义理解,并且仍然无法满足机器人实时更新的要求。
为了应对这些挑战,我们的工作建立在静态高斯溅射的基础上,以弥合这一差距。我们通过将“对象性”嵌入到场景表示中来解决速度和语义解释的需求,从而加快更新过程。这种方法允许进行快速、高频的更新,这对于动态机器人环境至关重要。这也允许在初始步骤中一次性提取二维基础模型以获取语义信息,从而绕过大型模型的推理瓶颈。
利用我们的表示方法,我们可以使现成的二维策略训练器更加健壮,以处理任意相机姿态,通过将观测投影到训练视图上。我们的语义、动态和三维表示还允许机器人根据开放词汇查询提示对移动物体进行反应式抓取。
下面一起来阅读一下这项工作~
1. 论文信息
标题:3D-Aware Manipulation with Object-Centric Gaussian Splatting
作者:未公布
机构:未公布
原文链接:https://object-aware-gaussian.github.io/
2. 摘要
对环境的3D理解对于机器人学习系统的鲁棒性和性能至关重要。例如,基于2D图像的策略很容易因为相机视点的微小变化而失败。然而,当构建3D表示时,以前的方法通常要么牺牲2D基金会模型的丰富语义能力,要么牺牲对实时机器人操作至关重要的快速更新速率。在这项工作中,我们提出了一个三维表示的基础上三维高斯是语义和动态的。在只有一个或几个摄像机视图的情况下,我们提出的表示能够响应于机器人和物体的运动实时捕捉30 Hz的动态场景,这对于大多数操纵任务来说是足够的。我们实现这种快速更新频率的关键是对表示进行以对象为中心的更新。语义信息可以在初始阶段从预先训练的基础模型中提取出来,从而在策略推出期间绕过大型模型的推理瓶颈。利用我们的以对象为中心的高斯表示,我们展示了一种简单而有效的方法来实现视觉运动策略的视图鲁棒性。我们的表示还实现了语言条件下的动态抓取,为此,机器人对由开放词汇查询指定的移动对象执行几何抓取。
3. 效果展示
4. 主要贡献
引入以对象为中心的高斯溅射用于机器人中的动态、语义和三维表示。
通过以对象为中心的更新克服了普通高斯溅射的更新速度限制,实现了30Hz的更新率,这对于大多数实时机器人应用而言是足够的。
提出了GSMimic,它利用我们的表示来获得在模拟和现实世界操作任务上评估的视图鲁棒行为克隆策略。
展示了表示方法适用于零样本语言条件动态抓取,展示了其在动态环境中的适应性。
5. 基本原理是啥?
为了证明我们表示方法的有用性,我们提出了两种直接且有效的应用,将其应用于机器人操作。首先,我们展示了如何为基于图像的视动策略实现视角鲁棒性。其次,我们应用我们的表示方法,使机器人能够根据开放词汇语言查询抓取移动且未见过的物体。
通过GSMimic实现视角鲁棒的视动策略学习
考虑一个视动策略,其输入来自一组相机的RGB图像。如果训练视角固定在某个坐标系(如世界坐标系或末端执行器坐标系)上,就会出现视角鲁棒性问题。如果训练时相机的安装方式不同,输入观测值的变化会导致分布偏移,从而导致性能显著下降。没有额外的训练相机,这个问题在训练过程中很难处理。利用以物体为中心的高斯表示,我们可以通过额外的深度输入来规避这个问题。在测试时,我们可以通过我们的3D场景表示进行渲染,以获得与训练时相同的视角的伪观测值。其中一个复杂之处在于,由于视野有限,测试时的视角无法完全覆盖训练时的视角,从而在渲染中造成空白区域。为了解决这个问题,我们直接在渲染时仅使用前景高斯渲染进行训练,在渲染过程中去除标签l_i=0的高斯。我们特别评估了通过行为克隆训练的视动策略的这一策略,并将整体方法称为GSMimic。
语言条件下的动态抓取
我们的表示方法很容易应用于零样本语言条件下的动态抓取。在这种设置中,用户发出语言查询,要求机器人抓取指定的物体,而无需事先演示。由于目标物体可能正在移动,需要代理动态适应,这使得任务变得复杂。在初始化阶段,我们使用CLIP为每个物体k提取一个与语言对齐的特征f_k。然后,在查询时,我们使用CLIP为查询提取嵌入f_q,并根据余弦距离将查询与场景中的物体进行匹配:
由于具有显式的3D表示,在时间步t,我们能够通过收集标记为l_i=k的高斯中心来提取目标物体P_t的点云。点云是确定可行抓取的基础,该抓取由姿态τ_g参数化。特别是,我们在点云P_t附近随机采样抓取姿态,并选择具有最大对极分数的抓取。然后,使用运动规划器指导机器人到达由τ_g指定的姿态。语义、动态和3D方面对于任务的成功都至关重要。
6. 实验结果
7. 总结 & 未来工作
在本研究中,我们提议利用三维高斯模型作为机器人技术的一种语义和动态三维表示。我们通过以物体为中心的初始化和更新实现了高达30Hz的更新率,这对于大多数机器人任务而言是足够的。我们通过GSMimic和语言控制的动态抓取展示了我们的表示方法在训练视角鲁棒行为克隆策略方面的实用性。然而,我们方法的一个关键局限性在于,目前它并不引入新的高斯模型来表示可能的新物体,这对于将表示方法扩展到开放世界操作至关重要。我们相信,通过这一扩展,我们提出的表示方法有可能应用于广泛的野外机器人应用。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球