0. 论文信息
标题:GaussRender: Learning 3D Occupancy with Gaussian Rendering
作者:Loick Chambon, Eloi Zablocki, Alexandre Boulch, Mickael Chen, Matthieu Cord
机构:Valeo.ai, Paris, France、Sorbonne Universite, Paris, France、Hcompany.ai, Paris, France.
原文链接:https://arxiv.org/abs/2502.05040
代码链接:https://github.com/valeoai/GaussRender
1. 导读
理解驾驶场景的三维几何和语义对于开发安全的自动驾驶汽车至关重要。虽然3D占用模型通常使用基于体素的监督和标准损失(例如,交叉熵、Lovasz、dice)来训练,但是这些方法独立地处理体素预测,忽略了它们的空间关系。在本文中,我们提出高斯渲染,一个即插即用的三维到2D重新投影损失,增强了基于体素的监督。我们的方法将3D体素表示投影到任意的2D透视中,并利用高斯分布作为体素的有效的、可区分的渲染代理,引入了跨投影元素的空间依赖性。这种方法提高了语义和几何的一致性,更有效地处理遮挡,并且不需要修改架构。在多个基准(SurroundOcc-nuScenes、Occ3D-nuScenes、SSCBench-KITTI360)上进行的大量实验表明,各种3D占用模型(TPVFormer、SurroundOcc、Symphonies)的性能增益一致,凸显了我们框架的健壮性和多功能性。
2. 效果展示
GaussRender,一个基于体素到高斯的染块,一致地增强了跨多个数据集的三维占用模型的性能。
损失函数对体素空间一致性的影响。标准的3D占位损失(顶部)独立应用于每个体素,没有强制它们之间的空间一致性。相比之下,使用GaussRender的渲染损失(底部)促进了3D空间中体素的一致性,并强制从任何角度实现一致性。
3. 主要贡献
一个即插即用模块计算语义和深度渲染损耗可以改进三维占用模型的训练,而无需更改现有建筑结构。
在三维占用任务中引入高斯散射作为一种有效的体素渲染代理,减少了计算开销。
推荐课程:
彻底搞懂大模型数学基础剖析、原理与代码讲解
。
-个视角无关的监督框架,可以利用任意摄像头摆放来进行强有力的训练。
在三个标准基准上取得了最先进的结果,在复杂的驾驶场景中取得了显著的进步。
4. 方法
渲染方法在3D占用预测上的比较。之前的方法依赖于不精确的伪注释或需要额外的激光雷达传感器,损失在传感器的参考框架中计算。相比之下,我们的方法GaussRender仅使用体素基底的地面真相,同时允许从任何角度进行灵活的渲染。
由于核心思想是将3D语义体素表示投影到2D透视视图中,我们的目标是以高效和可区分的方式渲染3D体素。因此,我们构建了一个使用高斯散斑的渲染策略。这使得渲染速度比传统的光线投射方法更快,同时保持梯度反向传播的差异性。
5. 实验结果
6. 总结
本文提出高斯渲染模块GaussRender,专门用于3D占位任务。我们的基于高斯渲染不需要外部传感器,仅对体素进行操作,使其与任何现有架构兼容,并在所有研究的数据集和模型上实现性能提升,:达到最先进的结果。
GaussRender易于插接,仅引入一个自由度(高斯函数的尺度),同时保持低计算和内存开销并允许从任何角度渲染体素。此外,我们表明系统地使用增强3D预测空间一致性的损失函数对于改善3D占位结果至关重要,同时改善体素与其在图像和BeV中的重投影之间的3D-2D一致性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接