专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

如何获取高质量4D数据？Google新作：高效3D重建与长时序运动预测框架

3D视觉工坊 · 公众号 · · 2024-12-23 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种从互联网立体视频中挖掘高质量4D数据的管道，并展示了该管道如何应用于动态场景的3D运动和结构预测。作者开发的 DynaDUSt3R 模型通过结合不同的噪声结构和运动估计，自动标注每个视频序列的相机参数、3D点云和长时间跨度的3D运动轨迹。实验表明，基于真实世界数据（如 Stereo4D ）训练的 DynaDUSt3R 在3D运动预测和深度结构估计方面，显著优于基于合成数据的模型，并展示了其在动态场景中的强大泛化能力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos

作者：Linyi Jin, Richard Tucker等

作者机构：Google DeepMind等

论文链接：https://arxiv.org/pdf/2412.09621

2. 摘要

从图像中学习理解动态三维场景对机器人技术、场景重建等应用至关重要。然而，与其他通过大规模监督训练实现快速进展的问题不同，由于获取真实标注的固有困难，直接监督恢复三维运动的方法仍然充满挑战。我们提出了一种从互联网立体广角视频中挖掘高质量4D重建的系统。我们的系统将相机姿态估计、立体深度估计和时间跟踪方法的输出进行融合和过滤，生成高质量的动态三维重建。我们使用该方法生成大规模数据，形式为世界一致的伪度量三维点云，并带有长期运动轨迹。我们通过训练DUSt3R变体来预测来自真实世界图像对的结构和三维运动，展示了在我们重建的数据上进行训练可以使模型在多样的真实世界场景中具有良好的泛化能力。项目页面：https://stereo4d.github.io

3. 效果展示

目前，尚无可扩展的数据源用于真实世界的地面真值3D运动与视频配对的数据。我们提出了一种框架，用于从现有的互联网立体视频中挖掘此类数据，形式为具有长时间跨度世界空间轨迹的3D点云。我们的框架融合并过滤了相机姿态、稠密深度图和2D运动轨迹，以生成高质量的伪度量点云和长期3D运动轨迹，涵盖了成千上万的视频片段。我们展示了这些数据如何在学习一个既能推理3D形状又能推理运动的模型中发挥作用。

在Stereo4D的保留样本上进行测试。我们可视化了图像对及其对应的由DynaDUSt3R预测的动态3D点云。它能够恢复出准确的3D形状和复杂的场景运动，例如跳霹雳舞的人物和行走的牛群。

定性比较，Stereo4D上的3D运动。我们比较了在不同数据源上训练的DynaDUSt3R变体。PointOdyssey训练的模型错误地对静态元素（如建筑墙面和街灯附近的横幅）预测了显著的3D运动，而Stereo4D训练的模型正确地将这些元素预测为静止。Stereo4D模型还对动态物体（如有较大运动的人物，底部行）做出了更精确的运动预测。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研] 。在ADT [64]上的预测3D运动的定性比较。与在PointOdyssey上训练相比，DynaDUSt3R在Stereo4D上训练后产生了更准确的3D运动预测。

4. 主要贡献

一种从现有在线视频中大规模获取真实世界动态的伪度量4D重建和相机姿态的框架；
DynaDUSt3R，一种方法可以从任何真实世界视频的一对帧中预测两组三维点云以及在时间上连接它们的三维运动轨迹。

5. 基本原理是啥？

目标：
该研究的目标是通过从互联网立体视频中挖掘高质量的4D数据（包括3D结构和运动轨迹），来改进动态场景中3D运动和结构的学习。通过这个过程，研究希望提升模型在处理现实世界动态场景中的表现。
模型架构 ：
研究提出的模型是 DynaDUSt3R ，它是基于 DUSt3R 的扩展。 DUSt3R 主要用于静态场景的3D点云预测，而 DynaDUSt3R 通过添加一个“运动头”来处理动态场景中的点云预测。该运动头能够预测点云在两帧之间的运动，允许模型预测中间时间点的3D场景流（scene flow）。
输入与输出 ：

输入：两帧来自视频的图像（例如，时间 t0 和 t1），以及一个查询时间 t_q（在 [0, 1] 范围内）。
输出：每个输入图像的3D点云和相应的运动信息（如运动矢量和运动置信度），这些输出都在 t0 时刻的坐标系下进行预测。

训练目标 ：
该模型通过使用一种 信心感知的尺度不变3D回归损失 来训练。训练过程中，模型学习根据地面真值（ground truth）来调整预测结果，包括点云的尺度和位移，并且通过对比预测和真实值的欧几里得距离来优化模型。

数据来源 ：
研究使用了 Stereo4D 这一真实世界的立体视频数据集，并与合成数据集 PointOdyssey 进行对比。 Stereo4D 数据集中的视频片段是从真实的VR180视频中提取的，包含了动态场景的深度信息和3D运动轨迹。

应用与扩展 ：

该模型专注于两帧图像之间的点云和运动预测，但未来可以通过集成生成性先验或全局优化方法，扩展到处理视频输入。这将有助于更复杂的运动内容建模和长期动态跟踪。
另外，模型也为从立体视频中自动生成4D数据（包括相机参数、点云和运动轨迹）提供了一个可行的解决方案。

6. 实验结果

3D 运动预测

基准模型与评估指标

该部分通过将 DynaDUSt3R 模型在 Stereo4D 数据集上进行训练，与基于合成数据集 PointOdyssey 训练的模型进行比较。
PointOdyssey 数据集包含真实的深度图和3D运动轨迹，模型在该数据集上进行训练时，使用了与 DynaDUSt3R 相同的超参数设置。
在推理时，给定从动态场景的视频中采样的两帧图像，计算 3D端点误差（EPE） ，即预测的3D运动矢量与真实值之间的误差。
另外，还计算了与真实值比较的3D点在5cm和10cm内的比例（ δ0.05 3D , δ0.10 3D ）。

定量结果

DynaDUSt3R 在 Stereo4D 数据集上训练后，较 PointOdyssey 基准模型在所有评估指标上表现更好，显示出在实际动态场景中更高的泛化能力。
具体来说， DynaDUSt3R 在3D运动预测的准确性上显著优于 PointOdyssey 模型，证明了使用真实世界数据进行训练的优势。

定性结果

图7展示了在 Stereo4D 测试集上的三个动态场景示例，包括3D点云和运动轨迹的可视化。
DynaDUSt3R 能够在两个输入图像定义的时间范围内准确地预测3D形状和运动轨迹。
尽管输入仅为两帧稀疏图像，模型架构通过查询中间时间状态，使得运动轨迹呈现连续且可能是非线性的运动轨迹。
图8和图9分别展示了 DynaDUSt3R 在 Stereo4D 和 ADT 测试集上的运动轨迹对比。 DynaDUSt3R 在这两个数据集上都能更准确地估计3D运动，尤其是在静止物体和移动物体的运动预测中。

结果对比

在 PointOdyssey 上训练的 DynaDUSt3R 对于静止的街道横幅产生了非零的运动，而对于行走中的人产生了错误的运动轨迹。
相反，在 Stereo4D 上训练的模型能够更准确地捕捉到这些动态物体的运动。

结构预测

基准模型与评估指标

该部分评估了 DynaDUSt3R 在 Stereo4D 和 PointOdyssey 数据集上的结构预测性能，与 DUSt3R 和 MonST3R 模型进行比较。
DUSt3R 预测的是静态场景中的点云， MonST3R 则通过扩展 DUSt3R 来处理动态场景，但不考虑运动建模。
评估指标包括 绝对相对误差（Abs Rel） 和 1.25倍内点的百分比 （ δ < 1.25 ），用于衡量预测的深度图与真实值之间的准确性。

定量比较

DynaDUSt3R 在 Stereo4D 上训练后，在所有基准模型中表现最佳，尤其在 Bonn 数据集上展示了显著的深度预测改进。
DynaDUSt3R 相较于其他基准模型，能够更准确地预测动态场景的3D结构。

定性比较

图10展示了 Stereo4D 上的几个时刻的真实3D点云与不同方法的预测结果。
DUSt3R 对于两个人物的深度关系预测不准确， MonST3R 和 DynaDUSt3R （在 PointOdyssey 上训练）则预测了扭曲的场景几何。
与此相比，在 Stereo4D 上训练的 DynaDUSt3R 生成的3D结构与真实数据最为接近。

7. 总结 & 未来工作

局限性
我们的数据处理管道和训练模型存在一些局限性。长期的 3D 运动轨迹质量取决于光流和 2D 点跟踪的准确性，对于远处的背景区域或长时间被遮挡的物体，其质量可能会下降。此外，DynaDUSt3R 是一个非生成模型，仅在两帧输入上进行操作。通过采用额外的全局优化方法或集成生成性先验来建模模糊的运动内容，将我们的模型扩展到视频输入是一个有前景的未来方向。

结论
我们提出了一种从互联网立体视频中挖掘高质量 4D 数据的管道。我们的框架通过整合从视频中提取的不同噪声结构和运动估计，自动为每个真实世界的视频序列注释相机参数、3D 点云和长期 3D 运动轨迹。此外，我们展示了在我们的真实世界 4D 数据上训练 DUSt3R 的变体，可以更准确地学习动态场景中的 3D 结构和运动，超越了其他基准模型。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿