专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
51好读  ›  专栏  ›  3DCV

TUM重磅开源!SADG:分割一切动态高斯

3DCV  · 公众号  ·  · 2024-12-03 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:SADG: Segment Any Dynamic Gaussian Without Object Trackers

作者:Yun-Jin Li, Mariia Gladkova, Yan Xia, Daniel Cremers

机构:Technical University of Munich

原文链接:https://arxiv.org/pdf/2411.19290

代码链接:https://github.com/yunjinli/SADG-SegmentAnyDynamicGaussian

1. 导读

理解动态3D场景是各种应用的基础,包括扩展现实(XR)和自动驾驶。将语义信息有效地集成到3D重建中能够实现整体表示,这为沉浸式和交互式应用提供了机会。为此,我们引入了SADG,分割任何动态高斯没有对象跟踪器,一种新的方法,结合了动态高斯Splatting表示和语义信息,不依赖于对象id。我们建议通过利用从分段任意模型(SAM)生成的掩码和利用我们基于硬像素挖掘的新的对比学习目标来学习语义感知特征。所学习的高斯特征可以被有效地聚类而无需进一步的后处理。这为进一步的对象级编辑提供了快速计算,例如通过操纵场景中的高斯分布来移除对象、合成和传递样式。由于缺乏一致的评估协议,我们扩展了几个具有分段基准的动态新视图数据集,允许从看不见的角度测试已学习的特征场。我们在建议的基准上评估了SADG,并展示了我们的方法在分割动态场景中的对象方面的优越性能及其对进一步下游编辑任务的有效性。

2. 引言

我们生活在一个动态的三维世界中。大多数情况下,我们以高层次的对象来描述我们的环境。当我们四处移动并从不同视角观察场景时,我们完成了场景的几何构建,并感知到构成对象表示的颜色。同时,我们通过对象的运动和形变来推断其动态属性。尽管姿态、颜色和形状会发生变化,但其潜在的语义含义保持不变。这种直觉可以作为对近期流行的神经3D表示的一种强有力约束,并推动增强现实、游戏和自动驾驶交互应用领域的创新。在这些技术中,将语义信息无缝集成到基础表示中可确保沉浸式体验,并让用户能够更高级地控制动态场景内容。

神经辐射场(NeRFs)彻底改变了3D重建领域,并展示了从任何角度合成具有逼真感的新场景视图的卓越性能。原始NeRFs的局限性催生了许多后续工作,包括通过提升2D分割掩码或提炼特征来包含语义信息的工作,以及忠实表示动态场景的工作。由于采用连续隐式表示,这些方法计算量大,因为它们需要从多个视角进行重新渲染以确保编辑一致性,这阻碍了它们在交互式下游任务中的应用。

在NeRFs的基础上,高斯溅射(3DGS)引入了一种强大的新方法,该方法优先考虑效率和速度。3DGS的动态版本提供了具有运动的场景的忠实重建。这些模型可以作为学习在时间和空间上一致的语义特征的几何先验,并为实时交互应用(如场景编辑和动态交互)开辟了新的可能性。为此,一系列工作将彩色和显式高斯体的几何属性与语义信息相结合,从而产生了一致的新视图合成和分割。然而,这些工作仅限于静态场景,无法处理运动中的物体。

只有少数并发工作将语义和动力学统一起来,以全面理解现实世界的环境。然而,SA4D依赖于对象跟踪器的监督,并且在多视图场景中会出现语义身份冲突。此外,其方法对掩码噪声敏感,需要后处理来去除退化的高斯体。同时,DGD由于基于512维CLIP或384维DINOv2学习4D特征场,因此具有更高的内存要求和更长的训练时间。我们的工作旨在解决单视图和多视图表示问题,实现快速渲染时间、最小化的后处理和低内存占用。 推荐课程: 彻底搞懂大模型数学基础剖析、原理与代码讲解

为此,我们提出了新颖的框架——无需对象跟踪器即可分割任意动态高斯体(SADG),该框架有效结合了动态高斯溅射主干网络[56]和语义信息,而无需依赖保持对象身份一致性的跟踪器。为了学习时空语义场,我们基于硬正例和负例挖掘以及“分割任何内容”掩码(SAM),定义了一个新的对比目标。我们继承了基础模型在零样本2D场景理解方面的优势,来学习具有语义感知的特征场,并产生一致的时空分割。我们的32维特征紧凑且不依赖于2D分割模型的特征。渲染时间和存储需求几乎不受影响,从而实现了实时交互和编辑。学到的特征场可以在无需任何进一步后处理的情况下进行有效聚类,并用于一系列下游编辑任务,包括对象风格迁移、重新着色、合成和移除。鉴于动态场景语义分割的发展尚处于早期阶段且缺乏基准测试,我们提议通过语义基准测试扩展现有的新视图合成数据集。所提出的评估协议包括具有挑战性运动和多样内容的单视图和多视图场景,允许从未见视角对具有语义感知的潜在表示进行广泛测试。

3. 效果展示

分割定性结果。我们将我们在提出的分割基准上的性能与动态3D分割基线进行了比较。我们的模型始终表现出卓越的分割质量和清晰的掩模,而不依赖于跟踪监督或后处理。

多功能场景编辑应用程序。(a)可以通过点击提示或文本提示来选择感兴趣的对象。(b)可以通过在另一个场景中操纵选定的高斯函数来完成场景合成。(c)分割对象的风格转换以获得不同的纹理。(d)所选对象的对象移除。

4. 主要贡献

我们的贡献可以概括如下:

• 我们提出了无需对象跟踪器即可分割任意动态高斯体(SADG)这一新方法,该方法无需任何跟踪监督即可实现动态场景的多视图一致分割。

• 我们利用2D掩码中的信息,采用新颖的对比学习目标,为动态场景学习具有语义感知的潜在表示。

• 我们在五个动态新视图基准测试的单视图和多视图场景上对我们的方法进行了广泛评估,并展示了最先进的分割性能。

• 我们证明了特征空间的通用性,并将其应用于多个下游任务,包括对象移除、风格迁移和场景合成。

• 我们提供了一个交互式框架,允许用户通过简单的鼠标点击或文本提示来编辑场景。我们的工具不依赖于输入ID或2D笔画,并且以实时方式运行。

5. 方法

SADG由两个主要组件组成:动态几何重建和高斯特征学习。我们有效学习多视图和单视图序列的动态3D重建。给定4D重建,我们使用基于SAM掩码的对比语义感知学习来学习高斯特征。一旦特征被正确学习,就直接在学到的高斯特征上使用DBSCAN进行聚类。我们展示了我们的表示在各种场景编辑应用中的适用性。其中包括在我们的用户界面中通过点击或文本提示对目标对象进行分割、对象移除或场景合成等应用。

6. 实验结果

如表1所示,在平均mIoU和mAcc方面,SADG(自注意力动态高斯分割)在所有基准测试中均优于其他所有方法。

7. 总结

我们为动态场景理解引入了一个新颖框架,该框架能够在无任何目标跟踪监督的情况下实现多视图一致分割。我们的SADG有效地将动态3D高斯溅射(3DGS)和2D空间注意力模块(SAM)掩码结合到一个对比学习目标中,该目标将语义信息提升到3D空间,并基于困难的像素情况学习具有表达力的高斯特征。这实现了在渲染分割对象时的跨视图一致性,提高了不同视图下对象分割的质量和连贯性。在各种新视图数据集上评估时,SADG在定量和定性方面都表现出优越的性能。

我们进一步证明了所学特征场在下游编辑任务(如点和文本提示、风格迁移、对象移除和场景组合)中的有效性。我们的方法为动态场景理解和场景编辑的进一步研究奠定了坚实基础,尤其是在复杂的多视图场景中。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文