Manydepth2 | 基于运动感知自监督单目深度与位姿估计

3D视觉工坊 · 公众号 · · 2024-09-26 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

1.摘要

尽管自监督单目深度估计与位姿估计技术已经取得了长足的进展，但在处理包含动态物体的复杂场景时，仍面临诸多挑战。这主要是由于这些方法大多建立在静态世界假设的基础上，难以准确捕捉并处理动态变化。为了突破这一瓶颈，我们推出了Manydepth2，一个创新的基于运动引导代价体积的深度网络。Manydepth2将光流信息与粗糙的单目深度估计结果相结合，构建出一个静态参考帧，以此作为处理动态场景的基础。实验数据证明，在KITTI-2015和Cityscapes等权威数据集上，与计算成本相近的其他方法相比，Manydepth2在自监督单目深度估计与位姿估计任务中均展现出了卓越的性能，实现了显著的误差降低和精度提升。

论文投稿于 ICRA 2025：https://2025.ieee-icra.org/

代码开源于: https://github.com/kaichen-z/Manydepth2

2.研究思路

本研究聚焦于通过集成光流信息，以高效解决无监督单目深度估计中运动目标深度估计的难题。为此，我们提出了一种创新的单目深度估计方法，命名为Manydepth2，该方法精心设计了以下三个核心组件：

动态物件处理与静态参考帧构建
运动引导代价体积的构建
基于HRNet与注意力机制的深度估计架构

3.贡献

静态参考帧生成 ：我们创新性地结合了估计的光流信息和先前的深度信息，生成了一个新的静态参考帧。这一方法有效地消除了原始帧中动态元素的影响，为后续的深度估计和动态捕捉提供了更稳定的基础。
运动引导代价体积构建 ：通过引入新的静态参考帧、目标帧以及初始参考帧，我们构建了一个新颖的运动引导代价体积。这一体积能够精准地捕捉移动物体的动态信息，为精确的深度估计提供了有力支持。
基于HRNet和注意力机制的深度估计架构 ：我们利用高分辨率网络（HRNet）引入了一种创新的深度估计架构，该架构集成了注意力机制。这一设计使得网络能够整合不同细节级别的特征，从而实现精确的像素级密集预测，显著提升了深度估计的精度。
性能卓越 ：在KITTI、Cityscapes和KITTI Odometry等权威数据集上，我们提出的模型表现优异，超越了现有的单帧和多帧方法。这证明了我们的方法在处理复杂动态场景时的有效性和准确性。
高效训练 ：我们的模型训练效率较高，仅需在单张3090图形卡上，于20小时内即可完成训练。这一特性使得我们的方法更易于在实际应用中推广和部署。

4.研究背景

在计算机视觉领域，基于视觉的深度估计因其能够从二维观测中理解场景的三维几何结构而变得日益重要。这一能力为各种高级三维任务（如场景重建、目标检测和导航）提供了基础。近年来，自监督深度估计作为一种可行的训练方法逐渐兴起，旨在减轻对大量训练数据的依赖并降低高计算需求。这些方法可以从单目图像或立体图像对中学习深度图。尽管自监督单目视觉深度估计取得了显著进展，但与自监督立体视觉深度估计相比，仍存在明显的性能差距。这种性能差异主要归因于立体方法能够利用多个视图构建特征体积，从而融入更多的三维相机视锥体信息。相比之下，尽管多帧单目方法能够基于相邻帧构建特征体积，但这些相邻帧中存在的动态元素可能会破坏特征体积的构建，从而影响深度估计的准确性。因此，如何在保持计算效率的时，有效处理动态场景，成为自监督单目深度估计领域亟待解决的问题。

5. 网络结构

首先，Manydepth2巧妙地融合了光流信息与预训练深度数据，构建出一个静态参考帧。这一静态参考帧的构建策略，确保了即便在场景中存在复杂动态元素的情况下，深度估计过程依然能够保持其稳定性和准确性。紧接着，在静态参考帧坚实的基础上，Manydepth2进一步将这一静态帧与原始目标帧相结合创造出一个运动引导代价体积。这个体积不仅捕捉了场景中的运动信息，还深刻揭示了不同帧之间的空间对应关系，为后续的深度估计提供了强有力的支持。最终，运动引导代价体积被用作一个集成了注意力机制的深度网络结构的输入。该网络结构能够高效地处理和解析这些复杂的信息，从而精准地预测出目标场景中的深度信息。

静态参考帧生成

在单目视频中对移动物体进行深度估计时，我们利用了从 t 时刻到 r 时刻的光流估计、变换矩阵以及粗略的深度图。我们可以根据以下表达式计算基于深度的光流（静态光流）：

其中，是帧中的像素；和分别是帧和的内参矩阵。在静态场景中，静态光流与真实的光流相一致。在包含移动物体的场景中，真实的光流可以分解为静态光流和动态光流。基于以上分析，静态参考帧可以通过以下公式生成：

这种方法使得我们能够在包含动态物体的复杂场景中，更加准确地估计每个像素的深度，通过将总光流分解为静态和动态部分，我们可以更加细致地分析场景中的运动信息，从而提升深度估计的精度和鲁棒性。

运动引导代价体积

在为目标帧构建运动引导的代价体时，定义了一组与的光轴垂直的平行平面，这些平面基于深度假设，其中表示平面的数量。特征提取器用于生成和的特征图和。借助于和，通过对进行变形生成一组特征图。通过融合特征图和，即可生成运动引导的代价体。

基于注意力的深度网络

高分辨率网络（HRNet）因其能够在输入图像中保留高水平的细节信息而备受赞誉。HRNet由多个分支组成，这些分支用B表示，每个分支生成S个特征。然而，与仅利用每个分支最后阶段的特征图来进行视差图预测的做法不同，我们采用了通道注意力机制。这种机制将当前分支不同阶段的特征图与更深层分支的特征图进行融合。这一融合过程可以表示为。简而言之，HRNet通过其多分支结构在多个尺度上并行处理图像特征，而通道注意力机制则进一步增强了这些特征之间的信息交互和融合，从而有助于更准确地预测视差图。