专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉工坊

最新开源 | 捕捉动态目标的语义!真实感渲染 & 目标跟踪必看!

计算机视觉工坊  · 公众号  ·  · 2024-06-09 00:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

转自:3D视觉工坊 | 编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 3DGS系列 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

表示我们的3D世界的各个方面,包括外观、动态和语义,是计算机视觉中一个长期存在的问题。最近的研究表明,在快速渲染高保真动态3D和跟踪空间和时间中的3D点方面取得了显著进展。在这项工作中,我们更进一步,实现了对多样化的3D语义实体的跟踪。这些语义实体可以使用一个简单直观的界面来指定,包括点击或文本提示,从而为非专业人士提供了直观的界面。

在这一领域的大量工作基于NeRF,这是一种允许高质量渲染新视角的3D体积场景表示。尽管令人印象深刻,但这些工作在实时渲染高质量视图方面存在问题。为此,3D高斯飞溅(3DGS)提出了一种基于3D高斯的光栅化的新型3D表示,实现了实时高质量渲染。基于这种表示,最近的并发工作将语义信息的提炼纳入了静态3D高斯表示,实现了3D实体的分割及其随后在实时高质量渲染中的应用。

除了静态场景外,最近的工作将3DGS扩展到了动态设置,实现了高质量的实时动态3D重建,以及快速高效地跟踪空间和时间中的3D点。尽管令人印象深刻,但与我们的工作不同的是,这些工作无法基于像文本或点击这样的直观用户界面跟踪空间和时间中的3D语义实体。

在这项工作中,我们提出了DGD,这是一个统一的3D表示,用于动态3D场景的外观和语义。我们基于动态3DGS优化技术,通过时间优化高斯的变化以及其颜色和语义信息。我们方法的关键在于外观和语义属性的联合优化,这两者共同影响场景的几何属性。

更具体地,对于每个高斯,我们定义可学习变量:空间参数(位置、方向和尺度)、外观参数(颜色和密度)以及高维语义特征向量。给定场景的图像集合,我们通过利用2D基础模型提取每个视图的语义特征图。然后,我们将高斯光栅化到不同的视图中,并优化它们的参数以匹配场景观察结果。值得注意的是,高斯的空间参数受到颜色和语义特征优化的影响,从而更好地遵循监督信号并提高场景的表示质量。

我们通过考虑其在时间和空间中分割和跟踪3D语义实体的能力来评估我们的方法,这些实体可以使用文本或3D点击指定。我们的方法实现了对各种真实和合成场景的高质量和渲染速度的支持。

下面一起来阅读一下这项工作~

1. 论文信息

标题:DGD: Dynamic 3D Gaussians Distillation

作者:Isaac Labe, Noam Issachar, Itai Lang, Sagie Benaim

机构:耶路撒冷希伯来大学、芝加哥大学

原文链接:https://arxiv.org/abs/2405.19321

代码链接:https://github.com/Isaaclabe/DGD-Dynamic-3D-Gaussians-Distillation

官方主页:https://isaaclabe.github.io/DGD-Website/

2. 摘要

我们的任务是学习给定单眼视频输入的动态三维语义辐射场。我们学到的语义辐射场捕获了每个点的语义以及动态三维场景的颜色和几何属性,从而实现了新视图及其对应语义的生成。这使得能够分割和跟踪一系列不同的三维语义实体,使用包括用户点击或文本提示的简单直观界面进行指定。为此,我们提出了DGD,一个统一的三维表示,用于动态三维场景的外观和语义,基于最近提出的动态三维高斯表示。我们的表示随时间优化,具有颜色和语义信息。我们方法的关键是外观和语义属性的联合优化,它们共同影响场景的几何属性。我们评估了我们的方法在实现密集语义三维对象跟踪方面的能力,并展示了一系列场景的高质量渲染结果,渲染速度快。我们的项目网页位于https://isaaclabe.github.io/DGD-Website。

3. 效果展示

我们方法在时间步0、200、400、600和800生成的五个新颖视角,对应两个随机选择的固定摄像机姿态(第一/第三行)。在新颖视角下,我们提供了每个密集点的相应分割和跟踪。我们考虑与3D点击"手"(红色)和"饼干"(绿色)相对应的对象。

针对D-NeRF合成数据集上的合成场景,我们方法的能力进行语义分割和跟踪对象的视觉示例。

4. 基本原理是啥?

我们首先概述了我们方法使用的基础表示,用于动态三维重建和新视角合成。在此表示的基础上,我们概述了我们的新型蒸馏方法,该方法能够使用直观的用户界面描述和跟踪三维语义实体。然后我们提供了实现细节。

DGD利用3D高斯表示,并同时优化高斯的空间参数及其变形,以及每个高斯的外观属性和语义特征。我们学习的表示使得动态三维场景的语义理解和操作更加高效。

5. 实验结果

为了通过数字方式对我们的跟踪和分割进行时间上的评估,在表1中,我们考虑了从HyperNerf数据集和合成的D-NeRF数据集中选择的对象的平均IoU。例如,我们考虑在这些场景中呈现的"手"或"饼干"等对象。我们将输入的2D视图和关联的分割(如上所述手动获得)视为地面真值分割掩码。对于LSeg,我们考虑在使用对应于所需对象的文本提示时,对单个帧的分割。正如在表1中所见,LSeg在场景中分割语义元素时遇到困难,而我们的方法在定位它们方面要好得多。对于合成场景,我们发现LSeg倾向于对几乎整个对象进行分割,而不是文本提示指定的局部部分,因此,其mIoU分数非常低。此外,我们使得能够在不同时间步生成语义对象的新视图,而LSeg则不可能。我们在图6中提供了与LSeg相比,我们的方法产生的掩码的相应视觉示例。

作为进一步评估,图5提供了我们的方法与3D静态基线的视觉比较,我们考虑了在规范帧上的分割与基线的分割相比。正如所见,我们的方法产生了更加清晰的输出。我们还对HyperNeRF真实世界数据集进行了感知用户研究,并将其与3D静态基线进行了比较。我们考虑了一系列视频,其中对象被跟踪了两种不同的随机视图。我们要求用户在1-5的范围内评分:(Q1)"对象的分割效果如何?"以及(Q2)"两种不同视图的场景一致性如何?"。我们考虑了50个用户,并在表2中显示了平均意见分数。在所有情况下,我们的方法都是优越的。

6. 总结 & 未来工作

我们引入了DGD,这是一种新颖的3D表示,超越了几何和外观,以捕捉现实场景中动态对象的语义。我们的表示基于带有一组解耦几何、纹理、变形和语义控制的3D高斯函数,可以快速有效地光栅化为2D视图。DGD使得应用程序如实时逼真渲染、密集语义3D跟踪和通过直观的文本或点击界面对动态对象进行语义编辑成为可能。我们的实验证明了DGD在这些应用中的成功,仅通过单个单眼视频作为输入,适用于具有挑战性的现实世界环境。我们的工作又向直观交互动态3D场景迈出了一步。未来,我们希望将操作的范围扩展到包括涉及几何变化和变形的操作。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~


本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网: www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件







请到「今天看啥」查看全文