3D视觉工坊为您网罗最新的行业动态、学术论文、科研成果、产品发布、新闻政策!
1. 选择性立体:用于立体匹配的自适应频率信息选择
标题:Selective-stereo: Adaptive frequency information selection for stereo matching
作者:Xianqi Wang, Gangwei Xu, Hao Jia, Xin Yang
机构:Huazhong University of Science and Technology
来源:CVPR 2024
原文链接:https://arxiv.org/abs/2403.00486
代码链接:https://github.com/Windsrain/Selective-Stereo
摘要:基于迭代优化的立体匹配方法,如RAFT-Stereo和IGEV-Stereo,已经发展成为立体匹配领域的基石。然而,由于固定的感受野,这些方法难以同时捕获边缘中的高频信息和平滑区域中的低频信息。因此,它们往往会丢失细节,模糊边缘,并在无纹理的区域产生错误的匹配。本文提出了一种新的用于立体匹配的迭代更新算子——选择性递归单元(SRU)。SRU模块可以自适应地融合边缘和平滑区域的多个频率处的隐藏视差信息。为了执行自适应融合,我们引入了一个新的上下文空间注意(CSA)模块来生成作为融合权重的注意图。SRU使网络能够聚合多个频率上的隐藏视差信息,从而降低迭代过程中重要隐藏视差信息丢失的风险。为了验证SRU的普适性,我们将其应用于代表性的迭代立体匹配方法,统称为选择性立体匹配。我们的选择性立体匹配行列1st在KITTI 2012、KITTI 2015、ETH3D和Middlebury排行榜上。
2. IGEV++:用于立体匹配的迭代多范围几何编码体
标题:IGEV++: Iterative Multi-range Geometry Encoding Volumes for Stereo Matching
作者:Gangwei Xu, Xianqi Wang, Zhaoxing Zhang, Junda Cheng, Chunyuan Liao, Xin Yang
原文链接:https://arxiv.org/abs/2409.00638
代码链接:https://github.com/gangweiX/IGEV-plusplus
摘要:立体匹配是许多计算机视觉和机器人系统中的核心组件。尽管在过去十年中取得了重大进展,但处理不适定区域和大差异中的匹配歧义仍然是一个公开的挑战。在本文中,我们提出了一种新的用于立体匹配的深度网络架构,称为IGEV++。所提出的IGEV++构建多范围几何编码体(MGEV ),其对不适定区域和大差异的粗粒度几何信息进行编码,并对细节和小差异的细粒度几何信息进行编码。为了构建MGEV,我们引入了一个自适应补丁匹配模块,该模块可以高效地计算大视差范围和/或不适定区域的匹配成本。我们进一步提出了选择性几何特征融合模块,用于自适应地融合多范围和多粒度的几何特征。然后,我们索引融合的几何特征,并将它们输入到ConvGRUs中,以迭代地更新视差图。MGEV允许有效地处理大差异和不适定区域,例如遮挡和无纹理区域,并且在迭代期间享受快速收敛。我们的IGEV++在所有视差范围的场景流测试集上实现了最佳性能,最高可达768px。我们的IGEV++还在Middlebury、ETH3D、KITTI 2012和2015基准测试中实现了一流的精度。具体来说,IGEV++在大视差基准Middlebury上实现了3.23%的2像素异常率(Bad 2.0),与RAFT-Stereo和GMStereo相比,误差分别减少了31.9%和54.8%。我们还展示了IGEV++的实时版本,它在KITTI基准测试中取得了所有已发布的实时方法中的最佳性能。
3. 匹配-立体-视频:双向对齐,实现一致的动态立体匹配
标题:Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching
作者:Junpeng Jing, Ye Mao, Krystian Mikolajczyk
机构:Imperial College London
来源:ECCV 2024
原文链接:https://arxiv.org/abs/2403.10755
代码链接:https://github.com/TomTomTommi/bidastereo
摘要:动态立体匹配是从具有动态对象的立体视频中估计一致差异的任务。最近基于学习的方法优先考虑单个立体对的最佳性能,导致时间不一致。现有的视频方法在时间维度上应用每帧匹配和基于窗口的成本聚合,导致窗口大小尺度上的低频振荡。针对这一挑战,我们开发了一种用于相邻帧的双向对准机制作为基本操作。我们进一步提出了一个新的框架,BiDAStereo,实现一致的动态立体匹配。与现有的方法不同,我们将这个任务建模为局部匹配和全局聚集。在本地,我们以三帧的方式考虑相关性,以汇集来自相邻帧的信息并提高时间一致性。在全球范围内,为了利用整个序列的一致性并提取动态场景线索进行聚合,我们开发了一个运动传播递归单元。大量的实验证明了我们的方法的性能,展示了预测质量的改善,并在各种常用的基准上实现了最先进的结果。
4. MoCha-Stereo:立体匹配的Motif通道注意力网络
标题:MoCha-Stereo: Motif Channel Attention Network for Stereo Matching
作者:Ziyang Chen, Wei Long, He Yao, Yongjun Zhang, Bingshu Wang, Yongbin Qin, Jia Wu
机构:The State Key Laboratory of Public Big Data、Guizhou University、Northwest Polytechnical University
来源:CVPR 2024
原文链接:https://arxiv.org/abs/2404.06842
代码链接:https://github.com/ZYangChen/MoCha-Stereo
摘要:基于学习的立体匹配技术取得了重大进展。然而,现有方法在特征通道生成过程中不可避免地丢失几何结构信息,导致边缘细节不匹配。本文设计了模体通道注意立体匹配网络(MoCha-Stereo)来解决这个问题。我们提供了基元通道相关体积(MCCV)来确定更精确的边缘匹配成本。MCCV是通过将捕捉特征通道中常见几何结构的主题通道投影到特征地图和成本体积上实现的。此外,重建误差图的%潜在特征通道中的边缘变化也影响细节匹配,我们提出了重建误差基元惩罚(REMP)模块来进一步改进全分辨率视差估计。REMP综合了来自重建误差的典型信道特征的频率信息。摩卡立体声在KITTI-2015和KITTI-2012反光排行榜上排名第一。我们的结构在多视点立体视觉中也表现出了优异的性能。
5. LightStereo:渠道提升是您高效2D成本聚合的全部需求
标题:LightStereo: Channel Boost Is All Your Need for Efficient 2D Cost Aggregation
作者:Xianda Guo, Chenming Zhang, Dujun Nie, Wenzhao Zheng, Youmin Zhang, Long Chen
机构:Wuhan University、Xi’an Jiaotong University、Waytous、Institute of Automation, Chinese Academy of Sciences、、Metoak、University of California, Berkeley、University of Bologna、Rock Universe
原文链接:https://arxiv.org/abs/2406.19833
代码链接:https://github.com/XiandaGuo/OpenStereo
摘要:我们展示了LightStereo,这是一个先进的立体匹配网络,旨在加速匹配过程。与依赖于聚集计算密集型4D成本的传统方法不同,LightStereo采用3D成本体作为轻量级替代方案。虽然以前已经探索过类似的方法,但我们的突破在于通过专注于3D成本量的渠道维度来提高性能,其中封装了匹配成本的分布。我们详尽的探索已经产生了大量的策略来扩大关键维度的容量,确保精度和效率。我们将提出的LightStereo与现有的各种基准测试方法进行了比较,证明了它在速度、准确性和资源利用率方面的优异性能。LightStereo在SceneFlow数据集上实现了具有竞争力的EPE度量,同时要求最低只有22 GFLOPs,推理时间仅为17毫秒。我们的全面分析揭示了2D成本聚合对立体匹配的影响,为高效立体系统的实际应用铺平了道路。
推荐课程:
国内首个基于面结构光的高反射物体重建方法课程(相位偏折术)
。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球