RoboGSim：Real2Sim2Real 机器人Gaussian Splatting模拟器

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-21 00:12

正文

24年11月来自哈工大深圳分校、计算所、旷视和浙大的论文“RoboGSim: A Real2Sim2Real Robotic Gaussian Splatting Simulator”。

高效获取现实世界的具体数据已变得日益重要。然而，通过遥操作捕获的大规模演示往往需要极高的成本，并且无法高效地扩大数据量。在模拟环境下对场景进行采样是一种很有前途的大规模收集方式，而现有的模拟器无法对纹理和物理进行高保真建模。为了解决这些限制，RoboGSim，一个 real2sim2real 机器人模拟器，由 3D Gaussian Splatting 和物理引擎提供支持。RoboGSim 主要包括四个部分：高斯重建器、数字孪生（DT）生成器、场景编辑器和交互引擎。它可以将模拟数据与新视图、目标、轨迹和场景进行合成。RoboGSim 还为不同的操作策略提供了在线、可重复且安全的评估。real2sim 和 sim2real 传输实验表明纹理和物理具有高度的一致性。此外，合成数据的有效性，在真实世界操控任务下得到验证。

如图所示：RoboGSim 是一个高效、低成本、高保真渲染的交互式平台。它实现了具有新场景、新目标和新视图的演示合成，促进了策略学习的数据扩展。此外，它可以执行闭环模拟，以对不同的策略模型进行安全、公平和现实的评估。

收集大规模操纵数据对于有效的策略学习至关重要。一些方法建议通过遥操作捕获演示和动作 [11, 36, 38]。虽然这种操作相对提高了收集效率，但随着数据量的增加，它往往会带来极大的成本。为了解决这个问题，一些工作 [14, 33] 尝试在模拟环境下生成合成数据，进一步用于学习操纵策略。然而，这些 Sim2Real 方法受到模拟环境和现实环境之间巨大域差距的影响，使得学习的策略无效。

最近，一些工作为机器人学习引入了 Real2Sim2Real (R2S2R) 范式 [3, 20]。核心见解是通过辐射场方法执行逼真的重建，例如 NeRF [24] 和 3D Gaussian Splating (3DGS) [15]，并将学习的表示插入模拟器中。在这些方法中，典型的方法 Robo-GS [20] 提出了 Real2Sim 流程并引入了混合表示来生成能够实现高保真模拟的数字资产。然而，它缺乏对新场景、视图和目标的演示合成，以及作为策略学习数据的验证。此外，由于潜表示、模拟和现实世界空间之间的不一致，它无法对不同的策略进行闭环评估。

Real2Sim2Real 方法从根本上寻求解决 Sim2Real 差距，这一直是从模拟到现实世界转变的一个持续障碍 [8, 26]。为了尽可能地弥合 Sim2Real 差距，近年来出现了许多功能丰富的模拟器，包括 [7, 22, 27, 34, 37]。为此，还提出了各种数据集和基准以实现有效的策略学习 [12, 13, 16, 25]。以前的 Sim2Real 方法大致可分为三类：域随机化、域自适应和带干扰学习 [39]。域随机化方法旨在通过引入随机性来扩展机器人在模拟器中的操作范围。模拟环境应该能够在现实世界环境中迁移上述功能 [1, 10, 14, 33]。域自适应方法旨在统一模拟和真实环境的特征空间，促进统一特征空间内的训练和迁移 [2, 18, 40]。带干扰学习方法的目标是将干扰引入模拟环境，并在其中学习机器人的策略。它提高了在具有噪声和不可预测性的现实世界中有效运行的能力 [5, 35]。

作为 3D 重建领域的一项重大进步，3DGS [15] 将场景表示为一大组显式高斯点，并将其与高效光栅化相结合，实现高保真实时渲染，扩展了 NeRF [24] 的功能。

最近，许多研究探索了使用 3DGS 在具身模拟器和现实世界中执行操作任务。例如，Mani-Gaussian [21] 在高斯世界模型的同时引入了一个动态 GS 框架，分别隐式表示高斯点并对其进行参数化以建模和预测未来状态和动作。类似地，Gaussian-Grasper [41] 利用 RGB-D 图像作为输入，通过特征提炼和几何重建将语义和几何特征嵌入到 3DGS 中，从而实现语言引导的抓取操作。为了有效地将在模拟中学习的知识迁移到现实世界并缩小 Sim2Real 差距，最近出现了基于 3DGS 的研究 [17, 20, 28]。比如 Robo-GS [20] 和 SplatSim [28]。Robo-GS 通过绑定高斯点、网格和像素来实现可操作机械臂重建，主要侧重于高保真 Real2Sim 传输，然而，它对 Sim2Real 阶段的讨论有限。SplatSim 重建机械臂和场景中的目标，同时验证该方法对于 Sim2Real 任务的可行性。然而，它缺乏对生成目标数字孪生资产的讨论，而这对于实现精确操纵至关重要。

如图所示，RoboGSim主要包括高斯重建器、数字孪生生成器、场景编写器和交互引擎四个部分。给定机械臂的多视角图像和MDH参数，高斯重建器使用3DGS重建场景和目标，对机械臂进行分割，并构建MDH运动驱动图结构，以实现机械臂的精确运动建模。数字孪生生成器涉及场景和目标的网格重建。通过布局对齐，资产数据流可以互通，方便后续在交互引擎中进行评估。场景编写器实现新目标、场景和视图的合成。交互引擎合成新视图/场景/目标图像以供策略学习。它还可以以闭环方式评估策略网络。另外，可以使用现实世界的VR/Xbox设备在模拟中收集操纵的数据。

高斯重建器

采用3DGS方法重建静态场景，然后对机械臂关节进行点云分割。随后，利用MDH动态模型来控制每个关节对应的点云，从而实现机械臂的动态渲染。

3D高斯splatting（3DGS）[15]采用一组多视角图像作为输入，实现高保真场景重建。3DGS将场景表示为一组高斯函数，并利用可微分的光栅化渲染方法实现实时渲染。

在渲染过程中，可以通过类似于alpha混合[15]的渲染方法获得像素的最终颜色值C，它利用与像素重叠的N个有序高斯序列。

改进的 Denavit-Hartenberg (MDH) [6] 约定是一种参数化模型，用于描述机械手的运动链。运动链中的每个关节和连杆都由一组参数表征。在 MDH 中，可以为每个连杆构建一个变换矩阵，从而精确表示机械手在每个运动阶段的姿态。通过依次乘以这些变换矩阵，可以得到从基座到末端执行器的最终变换矩阵。对每个关节进行分割，然后将关节内的所有高斯点视为一个点质量。进一步根据 Ti 移动关节内的所有高斯点，实现对高斯点的运动驱动控制。

数字孪生（DT）生成器

DT不仅应映射现实世界的资产，还应涉及坐标对齐。通过 Real2Sim 布局对齐和 Sim2GS 稀疏关键点对齐，可以数字化现实世界，实现数字资产在真实、模拟和 GS 表示之间的流动。这有助于数字资产在各个方向上的转换，实现全面的资产泛滥。

3D 资产生成：采用两种方法生成 3D 目标资产。对于现实世界的目标，用转盘捕获目标的高质量多视图图像，并使用 GIM [32] 提取匹配特征，以解决缺乏纹理和反射等问题。然后，集成 COLMAP 流水线 [31] 以获得初始 SFM 点云，随后将其用于 3DGS 重建。此外，对于网络上可用的新目标，首先使用 Wonder3D [19] 来获取目标的几何一致的法向量和纹理网格。随后，利用 GaussianEditor [4] 中的方法，该方法应用扩散模型 [30] 来促进 3DGS 中的目标重建。

布局对齐

RoboGSim：Real2Sim2Real 机器人Gaussian Splatting模拟器

正文

请到「今天看啥」查看全文