专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
厦门网  ·  无缘世青赛!U20国足0∶1不敌沙特队 ·  10 小时前  
厦门网  ·  无缘世青赛!U20国足0∶1不敌沙特队 ·  10 小时前  
中国兵器工业集团  ·  北方公司携多款新产品亮相第十七届阿布扎比国际防务展 ·  2 天前  
解放军报  ·  起床号 ·  昨天  
洪观新闻  ·  首批苏-57战机将抵达阿尔及利亚 ·  3 天前  
51好读  ›  专栏  ›  3DCV

几何和运动的万能表征公式?NVIDIA全新开源:通用场景流估计!

3DCV  · 公众号  ·  · 2025-01-21 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Zero-Shot Monocular Scene Flow Estimation in the Wild

作者:Yiqing Liang, Abhishek Badki, Hang Su, James Tompkin, Orazio Gallo

机构:NVIDIA Research、Brown University

原文链接:https://arxiv.org/abs/2501.10357

官方主页:https://research.nvidia.com/labs/zero_msf

1. 导读

大型模型已经显示了对于许多低级视觉任务(如深度估计)的跨数据集的一般化,但是对于场景流不存在这样的通用模型。尽管场景流具有广泛的潜在用途,但是由于当前的预测模型不能很好地概括,所以它在实践中没有被使用。我们确定了三个关键挑战,并提出了解决方案,我们创建了一种联合估计几何和运动的方法,用于精确预测。第二,我们缓解了场景流数据匮乏的问题,提供了一个数据配方,为我们提供了跨越不同合成场景的100万个带注释的训练样本。第三,我们评估用于场景流预测的不同参数化,并采用自然和有效的参数化。在3D终点误差方面,我们得到的模型优于现有方法以及基于大规模模型建立的基线,并对DAVIS随意捕获的视频和RoboTAP的机器人操纵场景显示出零镜头泛化。总的来说,我们的方法使得场景流预测在未见环境更加实用。

2. 效果展示

我们的单目场景流估计模型预测了动态场景的两个输入图像(分别在每个面板下方显示)的准确点图和3D偏移量,这两个输入图像分别由两个相机C1和C2在时间t1和t2时捕获。动画显示了从C1在t1时的点图到C2在t2时的点图的插值。这些示例来自未在训练中见过的数据集,展示了我们方法的强大泛化能力。

我们展示了所有数据集的定性结果。

3. 引言

场景流(SF)通过3D空间中点的运动来捕捉动态场景的几何变换。因此,其准确估计可为增强现实、自动驾驶和机器人技术等应用带来益处。然而,尽管场景流具有潜力,但在实践中并未得到广泛应用。其中一个原因是现有方法的泛化能力有限。考虑到大规模模型在其他低级视觉任务上取得的进展,这一结果可能令人惊讶。例如,图像分割和深度估计(单目和多目)等任务的最先进方法取得了令人瞩目的成果,并在基准测试中处于领先地位。

为什么场景流估计与众不同?我们确定了三个关键挑战,这些挑战阻碍了从单目RGB视频中前馈场景流估计的泛化能力。

首先,几何和运动是相互纠缠的,因此需要进行联合推理。这是因为我们在图像空间中观察到的二维位移是深度和运动的综合效应,因此,其中任何一个估计错误都会导致场景流预测错误。即使在联合预测深度和运动时,由于尺度模糊性,场景流估计仍然是不适定的,需要有效的学习来解决这一问题。

其次,良好的泛化能力需要在大型且多样化的数据集上进行训练,但标记的场景流数据却很少。此外,一些数据集使用度量单位,而另一些则使用相对单位,如果处理不当,这可能会损害学习效果。虽然在单目深度估计中早已认识到这一尺度问题,但在场景流估计中尚未得到解决。现有方法没有考虑这两个因素,因此难以泛化到域外数据。

第三,场景流的估计对参数化的选择很敏感。我们发现,使用深度+光流或取运动前后估计的3D点之间的差异都会损害结果的质量。 推荐课程: 单目深度估计方法:算法梳理与代码实现

基于这些观察,我们为单目场景流估计开发了一个新模型。我们注意到,最近在深度估计方面的工作,如DUSt3R和MASt3R,在静态场景上显示出令人印象深刻的泛化能力,但它们没有建模运动。为了解决几何和运动的纠缠问题,我们没有使用单独的运动网络,而是将它们扩展为联合预测几何和运动偏移,并对这两个任务进行训练。有趣的是,我们证明这种联合训练也改善了它们对动态场景的深度估计,进一步支持了我们的观察,即几何和运动是相互纠缠的。为了解决第二个挑战,我们使用了跨多个领域的数据集:室内和室外,以及具有一组多样化的真实值注释。为了帮助联合几何和运动预测的质量,我们使用光流来监督场景流在图像空间中的投影。重要的是,为了利用度量和相对数据集,我们在数据集之间使用了一种简单且尺度对齐的机制。最后,我们意识到参数化选择的重要性,研究了替代方案,并提出将场景流表示为点图加3D运动偏移。

在与最先进的单目场景流方法和深度+光流基线方法的评估中,我们的方法在真实和合成单目场景流估计基准测试中,在零样本设置下改善了场景流和几何估计。这些结果的质量显示了我们的方法在未见数据集上的零样本泛化能力,因为这些数据集在训练中都未被使用。这种强大的泛化能力与现有场景流估计方法形成鲜明对比,现有方法在未见数据的训练上性能会降低。

4. 主要贡献

我们引入了第一个利用大规模数据进行准确野外估计的场景流方法。我们表明,几何和运动的联合训练是其成功的关键,并且当场景是动态的时,针对运动的训练也有助于深度估计。最后,我们描述了一种数据和训练策略,这是我们方法能够从大数据中学习的关键。

5. 方法

准确的场景流估计具有挑战性,因为它需要理解场景的几何形状及其运动。我们不能不考虑另一个因素而单独推理其中一个因素,因为在投影到二维后,这两个因素变得相互纠缠,因此场景流估计是不适定的。此外,要求我们的方法能够泛化到未见领域进一步增加了任务的复杂性。我们根据这些观察设计了我们的流程:首先,我们使用一个统一的骨干网络来联合预测深度和运动。这实现了几何和运动信息的共享。其次,我们采用CroCoV2作为我们的骨干网络。这使得我们能够直接使用来自最先进几何预测模型(如DUSt3R和MASt3R)的预训练权重来引导我们模型的几何估计,这有助于改善野外泛化能力。

我们提出了一种单目场景流算法,能够以零样本前馈的方式联合估计几何和运动。我们的方法通过新的贡献解决了三个关键挑战:具有3D先验的联合几何运动估计架构、从一般动态数据集中创建100万个多样化训练样本的数据配方以及使用它们的尺度自适应优化,以及仔细选择使用带3D运动偏移的点图的场景流参数化。所得模型在三维端点误差(EPE)方面超越了基于大规模模型的最先进方法和基线,并展示了从DAVIS中随意捕捉的视频到RoboTAP中的机器人操作视频等未见场景的强大零样本泛化能力。这种泛化能力使得场景流估计在自动驾驶以外的现实世界应用中(如增强现实和机器人技术)变得更加实用。

不同的数据集有不同的尺度,我们在训练几何和运动时需要考虑这一点。

场景流参数化:

6. 实验结果

7. 总结 & 未来工作

我们的方法受益于为几何学习到的3D先验知识,但目前无法从预训练模型的任何缺陷中恢复。未来的工作应考虑使用更稳健的3D先验来引导我们的方法。此外,在我们的设置中,相机自我运动和场景运动仍然是相互纠缠的;可以引入更多技术来分解它们,并支持更多下游应用。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文