专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
大皖新闻  ·  元宵节!安徽一市公共自行车停运 ·  昨天  
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  昨天  
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  昨天  
51好读  ›  专栏  ›  计算机视觉工坊

5倍加速!3D GS仍是顶会神器!GaussianOcc:最强3D占用估计!

计算机视觉工坊  · 公众号  ·  · 2024-09-02 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

近年来,在自动驾驶行业和学术界,以视觉为中心和以网格为中心的感知方法都受到了广泛关注。其中,环视3D占用估计已成为一项核心感知任务,并且是鸟瞰图(BEV)方法的有前途的替代品。为了促进3D占用估计,已经开发了几个基准用于监督训练,尽管这些基准在3D标注方面需要付出巨大努力。为了减轻标注负担,提出了基于体渲染的自监督和弱监督学习方法。体渲染允许使用2D监督信号(如2D语义图和深度图)进行3D表示学习,从而消除了训练过程中广泛3D标注的需要。现有方法通过体渲染实现自监督学习,其中2D语义图监督来自开放词汇集的语义分割,而深度图监督则来自自监督深度估计。然而,这些方法面临两个主要限制。首先,体渲染在现实世界尺度上进行,这需要真实6D姿态的可用性,以计算跨连续图像的多视图光度损失。其次,体渲染中的低效性与新视图合成任务一样具有挑战性,因为需要密集的采样操作。这些限制阻碍了更通用、高效的自监督3D占用估计范式的发展。

为了解决上述限制,我们探索了一种使用高斯溅射(Gaussian splatting)的全自监督且高效的3D占用估计方法。具体来说,我们引入了高斯溅射来进行跨视图溅射,其中渲染图像构建了一个跨视图损失,该损失在与6D姿态网络联合训练时提供尺度信息。这消除了训练过程中对真实6D姿态的需求。为了提高渲染效率,我们摒弃了传统体渲染所需的密集采样。相反,我们提出直接从3D体素空间进行高斯溅射。在这种方法中,体素网格中的每个顶点都被视为一个3D高斯函数,我们直接在体素空间内优化这些高斯函数的属性(如语义特征和不透明度)。通过这种新颖的方法,我们提出的方法GaussianOcc在完全自监督且高效的3D占用估计方面取得了进展。

下面一起来阅读一下这项工作~

1. 论文信息

标题:GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting

作者:Wanshui Gan, Fang Liu, Hongbin Xu, Ningkai Mo, Naoto Yokoya

原文链接:https://arxiv.org/abs/2408.11447

代码链接:https://ganwanshui.github.io/GaussianOcc/

2. 摘要

我们引入了GaussianOcc,这是一种系统方法,旨在探究高斯涂抹技术在全自监督和高效的环视3D占用估计中的两种用法。首先,传统的自监督3D占用估计方法在训练过程中仍然需要来自传感器的真实6D姿态。为了克服这一限制,我们提出了高斯涂抹投影(GSP)模块,该模块利用相邻视图投影为全自监督训练提供准确的尺度信息。此外,现有方法依赖于体积渲染,利用2D信号(深度图、语义图)进行最终的3D体素表示学习,这既耗时又低效。我们提出了从体素空间进行高斯涂抹(GSV),以利用高斯涂抹的快速渲染特性。因此,所提出的GaussianOcc方法能够在低计算成本(训练速度提高2.7倍,渲染速度提高5倍)下实现具有竞争力的全自监督(无需真实姿态)3D占用估计。

3. 效果展示

4. 主要贡献

本工作的主要贡献概括如下:

• 我们引入了首个完全自监督的高效环视3D占用估计方法,该方法探索了高斯溅射技术。 推荐学习: 当SLAM遇上3DGS!基于3D高斯的全新SLAM算法

• 我们提出了用于跨视图投影的高斯溅射,它可以在训练过程中提供尺度信息,从而无需真实6D姿态。

• 我们提出了从体素空间进行的高斯溅射,与体渲染相比,其训练速度提高了2.7倍,渲染速度提高了5倍,同时保持了竞争性的性能。

5. 基本原理是啥?

GaussianOcc的概述如图2所示。主要贡献是引入了用于尺度感知训练的跨视图高斯溅射和用于更快渲染的体素网格高斯溅射。与用于特定场景3D重建的原始高斯溅射不同,我们探索了一种设置,其中高斯属性在2D和3D网格中均得到良好对齐。这种方法将3D场景在2D图像平面上建模为深度图,在3D网格空间中建模为体素(占用)格式。







请到「今天看啥」查看全文