专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

重磅开源！FlowMap给你最精确的SfM！

计算机视觉工坊 · 公众号 · · 2024-06-02 00:00

正文

点击下方卡片，关注 「计算机视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊 | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球 ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料： 近20门视频课程（星球成员免费学习） 、 最新顶会论文 、 计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

一句话总结： FlowMap是第一个自监督、端到端可微的SfM方法，为360 °场景提供了COLMAP级别的精度。

下面一起来阅读一下这项工作~

1. 论文信息

标题：FlowMap: High-Quality Camera Poses, Intrinsics, and Depth via Gradient Descent

作者：Cameron Smith, David Charatan, Ayush Tewari, Vincent Sitzmann

机构：MIT

原文链接：https://arxiv.org/abs/2404.15259

代码链接：https://github.com/dcharatan/flowmap

官方主页：https://cameronosmith.github.io/flowmap/

2. 摘要

本文介绍了FlowMap，一种端到端可微分方法，用于解决视频序列的精确相机姿势、相机内参和每帧稠密深度。我们的方法执行每个视频的梯度下降最小化，比较通过现成的光流和点跟踪获取的对应物与由深度、内参和姿势诱导的光流之间的简单最小二乘目标。除了使用点跟踪来鼓励长期几何一致性外，我们还引入了对深度、内参和姿势进行可微重参数化的方法，这对于一阶优化是可行的。我们通过实验证明，我们方法恢复的相机参数和稠密深度使得在360°轨迹上使用高斯平铺进行照片真实新视图合成成为可能。我们的方法不仅远远优于先前基于梯度下降的捆绑调整方法，而且在360°新视图合成的下游任务上与COLMAP表现出惊人的相似性，即使我们的方法完全基于梯度下降，完全可微，且与传统的SfM完全不同。我们的结果为自监督训练神经网络打开了大门，这些神经网络执行相机参数估计、3D重建和新视图合成。

3. 效果展示

点云。来自Flowmap高质量的相机姿态、相机内参和FlowMap预测的深度可以组合在一起，以创建对齐良好的稠密点云。

下游3D Gaussian抛雪球 。FlowMap的输出可用于训练高质量的3D Gaussian抛雪球场景。重建质量明显优于NoPE - NeRF和DROID - SLAM，与COLMAP相当。

4. 基本原理是啥？

FlowMap是一种端到端的可微方法，用于恢复输入视频的姿势、内参和深度图 。FlowMap仅通过现成的光流和点轨迹对应进行监督，并使用梯度下降在每个场景中进行优化。FlowMap重建得到的高斯斑点通常与COLMAP中得到的质量相匹配或超过。

一个 FlowMap 前向传递 。给定 RGB 帧（红色）、光流（蓝色）和点轨迹（绿色），FlowMap 在每个前向传递中计算密集深度 D、相机姿态 P 和内参 K。通过 CNN获得深度，并为内参和姿态实现可微、前向传递的求解器。彩色点指示哪个块接收哪些输入。FlowMap 的唯一自由参数是深度 NN 和小型对应置信度 MLP 的权重。这些参数通过梯度下降针对每个视频单独优化，以最小化由相机引起的光流损失，尽管完全前向传递操作也是可能的。

Camera-Induced Flow Loss。

使用深度图、相机内参和光流来解决连续帧之间的相对姿势。为此，首先将它们的深度图反投影，然后解算出最能对齐结果点云的姿势。

5. 实验结果

新视角合成。

点云重建结果。

大规模鲁棒性研究 。在420个CO3D场景上运行FlowMap和DROID-SLAM，跨越10个类别，并绘制了与CO3D的COLMAP生成的姿态元数据相关的平均ATE。还在相同的数据上重新运行了COLMAP。与需要地面真值内参的DROID-SLAM相比，FlowMap产生的ATE明显较低。FlowMap的ATE分布类似于通过重新运行COLMAP获得的分布，在这两种情况下，大多数ATE都在0.005以下。

6. 总结 & 未来工作

FlowMap是一种简单、强大和可扩展的一阶方法，用于从视频中估计相机参数。FlowMap优于现有的基于梯度下降的方法，用于估计相机参数。FlowMap的深度和相机参数通过高斯光滑可以实现与COLMAP相当质量的后续重建。FlowMap使用PyTorch编写，在短序列上的运行时间为3分钟，在长序列上为20分钟，作者预计有协同工程努力可以将FlowMap的速度提高一个数量级。也许最令人兴奋的是，FlowMap对每帧深度估计是完全可微分的。因此，FlowMap可以作为新一代自监督单眼深度估计器、基于深度学习的多视图几何方法以及通用的新视角合成方法的构建模块，从而解锁对互联网规模的无姿态视频数据集的训练。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉工坊官网： www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、