专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
51好读  ›  专栏  ›  自动驾驶之心

专为自动驾驶而生!DeSiRe-GS:彻底摒弃3D框,动静态重建完美解耦(UC Berkeley最新)

自动驾驶之心  · 公众号  ·  · 2024-11-27 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享 UC Berkeley最新的工作—DeSiRe-GS! 无需3D框就能实现超高质量3DGS重建。如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 三维重建 技术交流群

论文作者 | Chensheng Peng等

编辑 | 自动驾驶之心

写在前面 & 个人理解

UC Berkeley最新的工作,提出了DeSiRe GS。全新自监督高斯飞溅表示,可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。我们的方法采用动态街道高斯的两阶段优化流水线。在第一阶段,由于3DGS只能重建动态环境中的静态区域,因此首先提取2D运动目标mask。然后这些提取的2D运动先验以可微的方式映射到高斯空间,在第二阶段利用动态高斯的有效公式。结合引入的几何正则化,我们的方法能够解决自动驾驶中数据稀疏引起的过拟合问题,重建与物体表面对齐而不是漂浮在空中的物理上合理的高斯分布。此外,我们引入了时间跨视图一致性,以确保跨时间和视点的一致性,从而实现高质量的表面重建。综合实验证明了DeSiRe GS的效率和有效性,超越了先前的自监督技术,实现了与依赖外部3D边界框标注的方法相当的准确性。

  • 开源链接:https://github.com/chengweialan/DeSiRe-GS

总结来说,本文的主要贡献如下:

  • 本文基于3DGS无法成功建模动态区域的简单观察,从外观差异中轻松提取运动信息。
  • 然后以可微的方式使用time-varying高斯将提取的局部帧中的2D运动先验提取到全局高斯空间中。
  • 引入了有效的3D正则化和时间交叉视图一致性,以生成物理上合理的高斯球,进一步增强高质量的分解和重建。

相关工作回顾

城市场景重建 。新视图合成的最新进展,如神经辐射场(NeRF)和3D高斯散斑(3DGS),显著推进了城市场景重建。许多研究已经将NeRF集成到自动驾驶的工作流程中。Urban Radiance Fields结合了激光雷达和RGB数据,而Block NeRF和Mega NeRF则对大型场景进行了分区,以进行并行训练。然而,动态环境带来了挑战。NSG使用神经场景图来分解动态场景,SUDS引入了一个用于4D场景表示的多分支哈希表。EmerNeRF和RoDUS等自我监督方法可以有效地应对动态场景挑战。EmerNeRF通过场景流估计捕获目标对应关系,RoDUS利用基于核的鲁棒训练策略结合语义监督。

在基于3DGS的城市重建中,最近的工作引起了人们的关注。StreetGaussians使用球谐函数分别对静态和动态场景进行建模,而DrivingGaussian引入了用于静态背景和动态目标重建的特定模块。OmniRe通过动态高斯场景图统一了静态和动态对象重建。

静态动态分解 。几种方法试图对动态和静态部件的变形进行建模。D-NeRF、Nerfiles、Deformable GS和4D-GS通过引入变形场扩展了vanilla NeRF或3DGS。他们计算规范到观测的转换,并通过变形网络分离静态和动态组件。然而,由于学习密集变形参数需要大量的计算资源,将这些方法应用于大规模驾驶场景具有挑战性,不准确的分解会导致次优性能。

对于自动驾驶场景,NSG将动态和静态部分建模为神经场景图中的节点,但需要额外的3D注释。其他基于NeRF的方法利用多分支结构分别训练时变和时不变特征。基于3DGS的方法,也侧重于静态-动态分离,但仍面临局限性。PVG为每个高斯函数分配速度和寿命等属性,区分静态和动态。然而,这种分离仍然不完整,缺乏彻底性。

神经表面重建 。传统的神经曲面重建方法更侧重于真实的几何结构。随着神经辐射场(NeRF)技术的兴起,神经隐式表示显示出高保真表面重建的前景。StreetSurf建议在城市环境中解开近景和远景,以更好地进行隐式表面重建。

3D GS重新引起了人们对显式几何重建的兴趣,最近的工作侧重于几何正则化技术。SuGaR通过引入和附加正则化项将高斯椭球体与物体表面对齐,而2DGS直接用2D圆盘替换3D椭球体,并利用截断符号距离函数(TSDF)融合深度图,实现无噪声的表面重建。PGSR引入了单视图和多视图正则化,以实现多视图一致性。GSDF和NeuSG将3D高斯与神经隐式SDF相结合,以增强表面细节。TrimGS通过修剪不准确的几何体来细化表面结构,保持与3DGS和2DGS等早期方法的兼容性。虽然这些方法在小规模重建中表现出色,但较新的作品旨在解决大规模的城市场景。RoGS提出了与路面物理特性相一致的2D高斯曲面表示。

DeSiRe-GS方法详解

如图2所示,训练过程分为两个阶段。我们首先通过计算渲染图像和GT图像之间的特征差来提取2D运动mask。在第二阶段,我们使用PVG将2D运动信息提取到高斯空间中,从而能够以可微的方式纠正每个高斯的不准确属性。

Dynamic Mask Extraction (stage I)

在第一阶段,我们观察到3D高斯散斑(3DGS)在重建静态元素方面表现良好,例如驾驶场景中停放的汽车和建筑物。然而它很难准确地重建动态区域,因为原始的3DGS没有包含时间信息。如图2(阶段1)所示,这种限制会导致渲染图像中出现重影状浮点等伪影。为了解决这个问题,我们利用静态和动态区域之间的显著差异,开发了一种有效的方法来提取编码运动信息的分割mask。

最初,采用预训练的基础模型从渲染图像和用于监督的GT图像中提取特征。设F表示从渲染图像I中提取的特征,F表示从GT图像I中抽取的特征。为了区分动态和静态区域,我们计算相应特征之间的每像素相异度D。相异度度量D对于类似特征接近0,表示静态区域,对于不同特征接近1,对应于动态区域。

当预训练模型被冻结时,计算出的相异度得分不涉及任何可学习的参数。我们提出了一种多层感知器(MLP)解码器来预测动态度δ,而不是对D应用简单的阈值来生成运动分割mask。该解码器利用提取的特征,其中包含丰富的语义信息,同时采用相异性得分来指导和优化解码器的学习过程。

通过采用等式7中定义的损失函数 ,解码器被优化以预测与动态区域对应的D较高的区域中的较低值,从而最小化损失。然后,我们可以获得二进制掩码编码运动信息(ε是固定阈值):

在训练过程中,图像渲染和mask预测的联合优化是相辅相成的。通过在监控过程中排除动态区域,渲染图像和GT图像之间的差异变得更加明显,从而有助于提取运动蒙版。







请到「今天看啥」查看全文