专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
王路在隐身  ·  潘金莲在忘川的回忆 ·  2 天前  
t0mbkeeper  ·  我把 2023 年 8 ... ·  3 天前  
L先生说  ·  9个对我帮助巨大的高效微习惯 ·  4 天前  
51好读  ›  专栏  ›  3D视觉工坊

ECCV'24开源 | 帝国理工新作BiDAStereo:时间一致的动态立体匹配

3D视觉工坊  · 公众号  ·  · 2024-09-24 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching

作者:Junpeng Jing, Ye Mao, Krystian Mikolajczyk

机构:帝国理工学院

原文链接:https://arxiv.org/abs/2403.10755

代码链接:https://tomtomtommi.github.io/BiDAStereo/

1. 引言

立体匹配是计算机视觉中的一项基本任务,旨在估计两个校正后的立体图像之间的视差。这项任务在多种应用中具有重要意义,包括三维重建、机器人导航和增强现实(AR)。它简化了三维场景重建,使无缝集成到虚拟或混合现实体验中成为可能,并促进了混合现实遍历。随着配备多个摄像头的消费设备(如AR眼镜和智能手机)日益普及,对高级视频立体匹配功能的需求也在不断增长。

基于深度学习的立体匹配方法在准确性、效率和鲁棒性方面取得了显著进展。然而,从立体视频序列中获得一致的视差估计仍然是一个挑战。由于处理是按帧进行的,没有考虑跨帧信息,因此直接将这些方法应用于视频通常会导致视差图严重闪烁。如图1所示,RAFTStereo在基于图像的立体基准测试中表现优异,但在现实世界立体视频上难以生成一致的视差。这一挑战在物体移动和变形的动态场景中更为突出。在这种情况下,多视图约束不适用,且视差不具有平移不变性。即使建立了对应关系,简单融合对应点的独立视差图也是无效的。

为此,一些最新方法提出利用跨帧信息。Li等人首先提出了一个通用的管道CODD,将这个问题分解为处理子模块。它包括一个用于逐帧视差估计的匹配网络、一个用于SE3变换预测的运动网络以及另一个用于时间信息融合的网络。该方法存在局限性,因为它仅通过使用一帧过去的信息来考虑时间信息。为了扩展时间感受野,DynamicStereo采用自注意力和交叉注意力机制,基于Transformer架构在一系列帧上提取和汇总信息。尽管它实现了比逐帧方法更好的性能,但它仍采用逐帧匹配和基于滑动窗口的聚合(图2(左))。这种机制缺乏时间相关性一致性和全局序列信息,导致在时间窗口大小尺度上出现低频振荡,如图1所示。此外,由于立体视频中匹配点对的位置随时间维度变化,因此在没有对齐的情况下直接对不同时间步的成本量进行时间注意力聚合是次优的。因此,我们研究的关键目标是设计一个能够在相关性和聚合过程中有效利用时间信息的框架。

为了应对这些挑战,我们强调了帧对齐在视频立体匹配中的重要性,并基于双向对齐开发了一种新框架BiDAStereo,以实现一致的动态立体匹配。如图2(右)所示,我们应用双向对齐有两个目的。首先,在给定时间步在一个相机中被遮挡的点可能在相邻时间步从两个相机中变得可见。为了利用来自相邻帧的时间信息(局部匹配),我们将帧向中心帧对齐,并通过三重帧相关层构建成本量。其次,为了利用整个序列的信息并提取动态线索(全局聚合),我们开发了一个运动传播递归单元(MRU)。在MRU更新中,来自相邻帧的双向运动特征被对齐并融合到中心帧中,以更新中心帧。这种方法允许全局一致性的递归传播,扩展了时间感受野,并使模型能够利用更广泛的时间信息。这在动态场景中尤其具有显著优势,因为当多帧信息被有效利用时,可以缓解逐帧估计中的模糊性和信息不足问题,如图1所示。

2. 摘要

动态立体匹配是从具有动态对象的立体视频中估计一致差异的任务。最近基于学习的方法优先考虑单个立体对的最佳性能,导致时间不一致。现有的视频方法在时间维度上应用每帧匹配和基于窗口的成本聚合,导致窗口大小尺度上的低频振荡。针对这一挑战,我们开发了一种用于相邻帧的双向对准机制作为基本操作。我们进一步提出了一个新的框架,BiDAStereo,实现一致的动态立体匹配。与现有的方法不同,我们将这个任务建模为局部匹配和全局聚集。在本地,我们以三帧的方式考虑相关性,以汇集来自相邻帧的信息并提高时间一致性。在全球范围内,为了利用整个序列的一致性并提取动态场景线索进行聚合,我们开发了一个运动传播递归单元。大量的实验证明了我们的方法的性能,展示了预测质量的改善,并在各种常用的基准上实现了最先进的结果。

3. 效果展示

4. 主要贡献

本文的主要贡献如下:

开发了双向对齐机制,作为在动态立体视觉中强制时间一致性的有效操作。

提出了三重帧相关层,用于对齐相邻帧并构建成本量,提取局部时间感受野线索。

提出了一种新颖的运动传播递归单元,以利用动态场景中的全局时间信息。

所提出的方法在多种基准测试中的动态立体匹配结果上实现了最先进的性能。

5. 方法

现有方法(左)与本文提出方法(右)之间的差异说明。现有方法将视频序列分割成固定片段进行处理,采用逐帧匹配操作构建成本量,并应用滑动窗口进行聚合,从而将信息传播限制在固定的时间长度内。本文方法采用双向对齐进行局部匹配,在相邻帧之间构建成本量。提出了一种自我更新机制,通过双向对齐更新当前状态,并在整个序列中传播全局一致性。

给定一对校正后的立体序列{ItL, ItR}t∈(1,T) ∈ RH×W×3,动态立体匹配的任务是估计与左侧对齐的视差图序列{dt}t∈(1,T) ∈ RH×W,其中T是帧数。挑战在于设计一个模型,该模型能够有效地在整个序列中传播一致性。现有方法通常对每帧进行匹配,并在帧T之间应用基于窗口的聚合,忽略了相邻帧之间的基本对齐操作。由于立体图像中匹配点的位置随时间变化,仅依赖时间注意力而不进行对齐是次优的。针对这一局限性,本文提出了基于双向对齐的动态立体匹配方法BiDAStereo。如图3所示,该框架包含三个模块:特征提取模块、光流模块和视差估计更新模块。 推荐课程: 零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战]

为简化过程,我们以三帧(中心帧及其相邻帧)作为输入示例,但相同的方法也可应用于帧数超过三帧的情况。在图3的左侧,输入立体序列通过两个共享权重的卷积特征提取模块进行处理。提取了多尺度特征图{FtL,FtR}s ∈ RsH×sW×C,其中s ∈ {1/16, 1/8, 1/4}表示下采样尺度,C是通道数。同时估计了双向光流{ff, fb} ∈ RH×W×2,并将其下采样到与特征图相对应的分辨率。随后,提取的特征和光流图通过更新模块的三个级联阶段,该模块包括一个三帧相关层(TFCL)和一个运动传播递归单元(MRU)。在TFCL中,使用相邻对齐特征构建成本量,并将其输入到MRU中,迭代优化视差预测。从空白视差图开始,将前一级更新阶段的输出视差输入到下一级。每个阶段使用相同的更新模块以减少总体参数。最后,将最后一级预测的视差通过凸上采样重新缩放到原始分辨率。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们展示了双向对齐可以提高动态立体匹配的一致性。基于这一点,我们提出了BiDAStereo,它集成了三帧相关层和运动传播递归单元,以有效提取局部和全局的时间线索。实验结果表明,我们的方法在各种数据集上表现良好,尤其是在领域外场景上。我们的工作和现有工作的一个共同局限是,无法主动区分动态区域和静态区域,这是确保一致性的关键。未来,我们的研究重点将放在如何将我们的方法与显式几何先验相结合以增强性能,并开发模型的轻量级版本。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文