专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

亲测50帧！无需内参！超越Dust3r！Spann3r：无需优化对齐快速进行3D重建！

3D视觉工坊 · 公众号 · · 2024-10-07 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章介绍了一种名为Spann3R的新方法，用于从有序或无序图像集合中进行密集的3D重建。Spann3R基于DUst3R范式，使用基于Transformer的架构直接从图像中回归点图，而不需要任何关于场景或相机参数的先验知识。与DUst3R不同，Spann3R能够预测每个图像的点图，这些点图表达在全局坐标系统中，从而消除了基于优化的全局对齐的需求。Spann3R的核心思想是管理一个外部空间记忆，该记忆学习跟踪所有先前相关的3D信息，并查询这个空间记忆来预测下一帧的3D结构。该方法能够实时处理有序图像集合，并且在各种未见过的测试数据集上展示了良好的性能和泛化能力

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：3D Reconstruction with Spatial Memory

作者：Hengyi Wang ,Lourdes Agapito

作者机构：Department of Computer Science, University College London

论文链接：https://arxiv.org/pdf/2408.16061

2. 摘要

我们提出了Spann3R，这是一种用于从有序或无序图像集合中进行密集3D重建的新方法。基于DUSt3R范式，Spann3R采用了基于Transformer的架构，能够直接从图像中回归点云图(pointmaps)，无需任何场景或相机参数的先验知识。与DUSt3R不同，DUSt3R预测的每对图像的点云图是在其局部坐标系中表达的，而Spann3R则能够预测在全局坐标系中表达的每幅图像的点云图，从而消除了基于优化的全局对齐的需求。Spann3R的核心思想是管理一个外部空间记忆，这种记忆能够学习并跟踪之前所有相关的3D信息。Spann3R然后查询该空间记忆，以预测全局坐标系中下一帧的3D结构。借助DUSt3R的预训练权重，并在部分数据集上进一步微调，Spann3R在多个未见过的数据集上表现出了竞争力和良好的泛化能力，并且能够实时处理有序图像集合。项目页面：https://hengyiwang.github.io/projects/spanner

3. 效果展示

定性示例：我们展示了DUSt3R† 和FrozenRecon的定性示例，以进行全面的比较。与其他离线方法相比，我们的方法表现出具有竞争力的结果。然而，由于我们的方法在线运行且不依赖于基于优化的对齐，因此在某些具有挑战性的场景中可能会出现漂移问题（参见Office-09）。

在线重建：我们在两个室内场景中可视化了在线重建的过程。在这两种情况下，我们的模型展示了其对室内场景规则性的理解，即曼哈顿世界假设。我们的模型可以基于学习到的规则性推断出无纹理墙壁的几何结构。然而，在回环闭合过程中，由于累积误差和异常值（第二个场景中窗户周围的噪声点），我们的模型可能无法准确填充几何结构。

4. 主要贡献

创新的3D重建方法 ：提出了Spann3R，这是一种新颖的密集3D重建方法，可以从有序或无序的图像集合中重建出密集的三维结构。
无需场景或相机参数的先验知识 ：Spann3R使用基于Transformer的架构，直接从图像中回归点图，无需任何关于场景或相机参数的先验知识。
全局坐标系统中的点图预测 ：与DUSt3R不同，Spann3R能够预测在全局坐标系统中表达的每幅图像的点图，从而消除了基于优化的全局对齐的需要。推荐课程：为什么说colmap仍然是三维重建的核心？
外部空间记忆管理 ：Spann3R的关键思想是管理一个外部空间记忆，该记忆学习跟踪所有先前相关的3D信息。Spann3R然后查询这个空间记忆来预测下一帧的3D结构，该结构在全局坐标系统中表达。

5. 基本原理是啥？

3D Reconstruction with Spatial Memory是一种用于从有序或无序图像集合中进行密集3D重建的新方法。这种方法的核心在于使用一个外部空间记忆来跟踪所有先前相关的3D信息，并查询这个空间记忆来预测下一帧的3D结构，所有这些都在一个全局坐标系统中进行。

Spann3R是建立在DUSt3R范式之上的，它使用基于Transformer的架构直接从图像中回归点图，而不需要任何关于场景或相机参数的先验知识。与DUSt3R不同，Spann3R能够预测每个图像的点图，这些点图表达在全局坐标系统中，从而消除了基于优化的全局对齐的需求。这种方法的一个关键优势是能够实时处理有序图像集合。

Spann3R的网络架构包括一个ViT编码器和两个交织在一起的解码器，目标解码器用于从图像中获取查询特征以进行记忆查询，而参考解码器则使用几何特征和记忆特征来预测基于记忆读出的结果。此外，还有一个轻量级的记忆编码器用于编码先前预测的点图以及几何特征到记忆键和值特征中。

在训练和推理过程中，Spann3R采用了一种课程训练策略，逐渐调整采样窗口大小，以确保模型能够适应不同的相机运动和长期特征匹配。在推理过程中，模型自然适合于顺序数据，例如视频序列。对于无序的图像集合，可以构建一个密集的成对图，然后使用Spann3R来确定下一个最佳图像。

Spann3R在各种未见过的数据集上展示了竞争性和泛化能力，并且可以实时处理有序图像集合。这种方法的提出，为3D重建领域带来了一种新的视角，尤其是在实时和无序图像集合的处理上展现出了潜力。

6. 实验结果

实时性能 ：Spann3R能够实时处理有序图像集合，每秒可以处理超过50帧图像。
泛化能力 ：在多种未见过的测试数据集上展示了良好的性能和泛化能力，包括室内场景、室外场景、物体级别和场景级别的重建。
无需优化对齐 ：Spann3R不需要基于优化的全局对齐过程，可以在推理时通过简单的前向传播实现三维重建。
空间记忆管理 ：通过引入外部空间记忆来跟踪所有先前的相关三维信息，并预测下一帧的三维结构，从而实现在线增量重建。
应用场景广泛 ：Spann3R可以应用于自动驾驶、虚拟现实（VR）、机器人导航和医疗成像等领域。
开源代码 ：Spann3R的代码已经在GitHub上开源，允许其他研究者和开发者使用和改进这个方法。
项目主页 ：有关Spann3R的更多信息和更新可以在其项目主页上找到。

7. 总结 & 未来工作

我们提出了Spann3R，这是一种能够从RGB图像中实现增量式重建的模型，无需相机参数的先验知识。通过引入空间记忆的概念，空间记忆可以为下一帧的预测编码之前的状态，Spann3R通过基于Transformer的架构进行简单的前向传递来重建场景，避免了测试时的优化需求。这使得在线实时重建成为可能。经过各种大规模数据集的训练，Spann3R在多种场景中展现了有竞争力的重建质量和泛化能力。未来工作包括将我们的方法扩展到处理大规模场景，结合束调整技术，以及探索在日常视频上的自监督训练。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓