专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

自动驾驶之心 · 公众号 · · 2024-11-27 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 UC Berkeley最新的工作—DeSiRe-GS！ 无需3D框就能实现超高质量3DGS重建。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『三维重建』 技术交流群

论文作者 | Chensheng Peng等

编辑 | 自动驾驶之心

写在前面 & 个人理解

UC Berkeley最新的工作，提出了DeSiRe GS。全新自监督高斯飞溅表示，可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。我们的方法采用动态街道高斯的两阶段优化流水线。在第一阶段，由于3DGS只能重建动态环境中的静态区域，因此首先提取2D运动目标mask。然后这些提取的2D运动先验以可微的方式映射到高斯空间，在第二阶段利用动态高斯的有效公式。结合引入的几何正则化，我们的方法能够解决自动驾驶中数据稀疏引起的过拟合问题，重建与物体表面对齐而不是漂浮在空中的物理上合理的高斯分布。此外，我们引入了时间跨视图一致性，以确保跨时间和视点的一致性，从而实现高质量的表面重建。综合实验证明了DeSiRe GS的效率和有效性，超越了先前的自监督技术，实现了与依赖外部3D边界框标注的方法相当的准确性。

开源链接：https://github.com/chengweialan/DeSiRe-GS

总结来说，本文的主要贡献如下：

本文基于3DGS无法成功建模动态区域的简单观察，从外观差异中轻松提取运动信息。
然后以可微的方式使用time-varying高斯将提取的局部帧中的2D运动先验提取到全局高斯空间中。
引入了有效的3D正则化和时间交叉视图一致性，以生成物理上合理的高斯球，进一步增强高质量的分解和重建。

DeSiRe-GS方法详解

如图2所示，训练过程分为两个阶段。我们首先通过计算渲染图像和GT图像之间的特征差来提取2D运动mask。在第二阶段，我们使用PVG将2D运动信息提取到高斯空间中，从而能够以可微的方式纠正每个高斯的不准确属性。

Dynamic Mask Extraction (stage I)

在第一阶段，我们观察到3D高斯散斑（3DGS）在重建静态元素方面表现良好，例如驾驶场景中停放的汽车和建筑物。然而它很难准确地重建动态区域，因为原始的3DGS没有包含时间信息。如图2（阶段1）所示，这种限制会导致渲染图像中出现重影状浮点等伪影。为了解决这个问题，我们利用静态和动态区域之间的显著差异，开发了一种有效的方法来提取编码运动信息的分割mask。

最初，采用预训练的基础模型从渲染图像和用于监督的GT图像中提取特征。设F表示从渲染图像I中提取的特征，F表示从GT图像I中抽取的特征。为了区分动态和静态区域，我们计算相应特征之间的每像素相异度D。相异度度量D对于类似特征接近0，表示静态区域，对于不同特征接近1，对应于动态区域。

当预训练模型被冻结时，计算出的相异度得分不涉及任何可学习的参数。我们提出了一种多层感知器（MLP）解码器来预测动态度δ，而不是对D应用简单的阈值来生成运动分割mask。该解码器利用提取的特征，其中包含丰富的语义信息，同时采用相异性得分来指导和优化解码器的学习过程。

通过采用等式7中定义的损失函数，解码器被优化以预测与动态区域对应的D较高的区域中的较低值，从而最小化损失。然后，我们可以获得二进制掩码编码运动信息（ε是固定阈值）：

在训练过程中，图像渲染和mask预测的联合优化是相辅相成的。通过在监控过程中排除动态区域，渲染图像和GT图像之间的差异变得更加明显，从而有助于提取运动蒙版。

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

正文

写在前面 & 个人理解

相关工作回顾

DeSiRe-GS方法详解

Dynamic Mask Extraction (stage I)

请到「今天看啥」查看全文