本篇分享论文
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion
,探索在运动状态下估算几何图形的简单方法——MonST3R。作者来自UC伯克利、DeepMind等。
-
论文链接:https://arxiv.org/abs/2410.03825
-
代码链接:https://github.com/Junyi42/monst3r
-
项目链接:https://monst3r-project.github.io/
-
演示链接:https://monst3r-project.github.io/page1.html
视频结果展示:
摘要
从动态场景中估计几何形状,尤其是物体随时间移动和变形的情景,仍然是计算机视觉中的一个核心挑战。目前的方法通常依赖多阶段管道或全局优化,将问题分解为深度和光流等子任务,使得系统复杂且容易出错。
本文提出一种新的以几何为中心的方法—— Motion DUSt3R(MonST3R),直接从动态场景中估计每个时间步的几何形状。其中关键见解是,通过简单地为每个时间步估计点图,可以有效地将 DUST3R 的表示(之前仅用于静态场景)适应于动态场景。然而,这种方法面临一个重大挑战:缺乏适合的训练数据,即带有深度标签的动态视频。
但作者表示,通过将问题视为微调任务,识别多个合适的数据集,并在有限的数据上有策略地训练模型,也能成功使模型能够处理动态场景,即使没有明确的运动表示。基于此,针对几个下游视频特定任务引入了新的优化,并在视频深度和相机姿态估计方面表现出色,超越了之前的工作,展现出更高的鲁棒性和效率。此外,MonST3R 在前馈 4D 重建方面也显示出良好的结果。
方法
本文利用 DUSt3R 的点图表示来直接估计动态场景的几何形状。DUSt3R 的点阵图表示法:估算两帧的 xyz 坐标,并以第一帧的相机坐标对齐。但对于 DUSt3R 是否可以有效地处理带有移动物体的视频数据。作者发现 DUSt3R 训练数据分布存在两个重大限制。
如下图所示:
DUSt3R 在动态场景中的局限性
-
左图:DUSt3R 对齐了移动的前景主体,但由于只在静态场景中进行了训练,因此对齐了背景点。
-
右图:DUSt3R 无法估计前景主体的深度,将其置于背景中。
但引起这些局限的主要问题是数据缺失,因此通过对一小部分动态视频进行微调,可以使 DUSt3R 适应动态场景,效果出人意料地好。
用于动态场景微调的训练数据集
关于微调的消融研究
主要贡献:
-
提出 Motion DUSt3R (MonST3R),一种几何优先的动态场景方法,它能以点图的形式直接估计几何图形,即使是移动的场景元素也不例外。为此,确定几个合适的数据集,可喜的是,小规模的微调也能够实现动态场景直接几何估计的良好结果。
-
MonST3R 在多个下游任务(视频深度和相机位姿估计)上取得了令人满意的结果。与之前的工作相比,MonST3R 尤其具有以下主要优势:
-
-
-
在视频深度估计、相机位姿估计和密集重建方面,与专门技术相比,结果更具竞争力。
实验结果
video depth estimation(视频深度估计)
定量结果
从定量结果来看,视频深度估计与该特定任务方法相比性能仍有竞争力,甚至与最近发布的DepthCrafter相当。
定性结果
从定性结果来看,MonST3R 与真实深度的对齐效果更好,如下图 Bonn 数据集中第一行的结果。
在Bonn数据集上的视频深度评估,预测的深度经过了尺度和偏移对齐处理。
camera pose estimation(相机位姿估计)
定量结果
从定量结果来看,相机位姿估计结果在与任务特定方法的比较中同样具有竞争力。
定性结果
从下图的定性结果看,MonST3R 在具有挑战性的场景中表现更具鲁棒性,例如 Sintel 中的 cave_2 和 temple_3。
在Sintel数据集上的相机位姿估计结果
在Scannet数据集上的相机位姿估计结果
joint dense reconstruction and pose estimation(联合密集重建和位姿估计)
定性结果
从下图定性结果来看,MonST3R同时输出可靠的相机轨迹和动态场景的几何形状。
在DAVIS数据集上的联合密集重建和位姿估计结果
另外,作者在社交媒体上表示,
该结果的速度比以前的方法快 10 倍
。
Pairwise prediction(成对预测)
最后,还展示了前馈成对点图预测的结果,如下图。
第一行表明,即使经过微调,所提出方法仍然能够处理不断变化的相机内参。简言之就是可以可以处理动态焦点。