港科大&浙大 | 强化学习的新革命：通用高斯表示的突破性应用

3DCV · 公众号 · · 2024-04-12 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

点击加入「3DCV」技术交流群

作者：Jiaxu Wang | 编辑：3DCV
添加微信：dddvision，备注：3D高斯，拉你入群。文末附行业细分群

标题：Reinforcement Learning with Generalizable Gaussian Splatting
作者：Jiaxu Wang等人
论文：https://arxiv.org/pdf/2404.07950.pdf

1、导读

这篇文章介绍了一种基于可推广高斯溅射(3DGS)的新颖环境表示方法，用于强化学习。该方法利用3DGS明确表达环境信息，同时捕捉局部几何细节，并且构建出3D一致性的特征。作者提出了一个通用的3DGS框架，可以直接从多视角图像中预测3D高斯云，无需每场景优化。通过在RoboMimic平台上与不同表示和算法进行比较，实验结果表明该通用3DGS表示方法可以显著提升强化学习的性能。这一工作拓展了3DGS在强化学习中的应用前景，并为未来基于视觉的强化学习提供了新的视角。

2、创新点

使用3D高斯表示作为强化学习中的环境表示，结合了显式表示和隐式表示的优势，既包含丰富的几何信息，又能描述复杂的局部几何结构。
引入了一个通用的3D高斯预测模块，该模块可以直接从多视角图像预测出3D高斯点云，而不需要针对每个场景单独优化，从而使得3D高斯表示可以用于强化学习。
将预训练好的高斯预测模块集成到强化学习环境中，将环境的观测转换为3D高斯表示，然后基于该表示训练强化学习策略。
在RoboMimic环境中进行验证，结果显示该通用高斯表示在多个任务上优于其他基准表示，提高了强化学习的性能。

3、方法

通用3D高斯表示 ：作者提出了一种通用的3D高斯表示方法，用于预测给定单张或多张图像对应的3D高斯点云。这一表示方法包含了深度估计、高斯回归和高斯精炼三个主要模块。

深度估计 ：该模块利用立体图像对来预测每个像素的绝对深度值，从而将2D图像映射到3D空间。

高斯回归 ：此模块以像素为单位预测每个3D高斯的其余属性，包括旋转矩阵、缩放矩阵、颜色等。

高斯精炼 ：为了改善特征的连贯性，作者定义了高斯精炼操作，通过图网络平滑3D空间中的特征。

训练策略 ：首先预训练深度估计模块，然后冻结该模块，并联合训练高斯回归和精炼模块。

损失函数 ：在训练中使用了渲染损失和重构损失，以指导模型学习。

4、实验

实验设置 ：

作者在RoboMimic平台上进行了评估，并选择了Lift、Can、Square和Transport四个任务。
采用了BCQ、IQL和IRIS三种离线强化学习算法。
对比了图像、点云、体素和通用高斯表示四种视觉观测模式。
为了公平比较，作者使用相同的默认参数设置，并固定通用高斯预测模块作为编码器，将多视角图像观测转换为3D高斯表示，然后让强化学习策略在此表示上预测动作。

结果分析 ：

表1显示了不同表示在四个任务上的性能比较，结果显示通用高斯表示在大多数情况下优于其他基准方法。
表2评估了高斯点数对性能的影响，结果显示方法对点数不太敏感，但点数增加时性能略有提高。
表3分析了3D高斯重构质量对强化学习性能的影响，结果显示更精确的重构有利于提高性能。
表4对通用高斯框架中的某些基本设计进行了消融分析，结果显示特征空间的级联结构和高斯精炼都是有效的。

结论：

作者的通用高斯表示在四个任务上优于其他基准表示，特别是在最困难的Transport任务上，性能提升了10%、44%和15%。

4、总结

本文提出了一个名为GSRL的通用高斯表示框架，用于强化学习中的环境表示。该框架通过一个通用的3D高斯预测模块，直接从多视角图像预测出3D高斯点云，从而避免了传统3D高斯表示需要对每个场景单独优化的缺点。作者将预训练好的高斯预测模块集成到强化学习环境中，将环境的观测转换为3D高斯表示，然后基于该表示训练强化学习策略。实验证明，该通用高斯表示在多个任务上优于其他基准表示，提高了强化学习的性能。这一框架创新性地将3D高斯表示应用于强化学习领域，为强化学习提供了高效的环境表示方法。

本文仅做学术分享，如有侵权，请联系删文。

在这里给大家推荐3D视觉工坊联合Gigi主讲老师推出的新课《 基于NeRF/Gaussian三维重建的全新SLAM算法 》