作者:泡椒味的口香糖 | 编辑:3DCV
添加微信:dddvision,备注:深度估计,拉你入群。文末附行业细分群
0. 这篇文章干了啥?
一句话总结:
提出了一种Radar和相机融合的深度估计框架RadarCam-Depth,可以预测度量深度图。
将单个相机和雷达的数据融合用于度量密集深度估计是一个有前途的研究领域,对于自动驾驶有重要意义。但雷达数据中的稀疏性和大量噪声以及雷达点与图像像素之间的不完美跨模态关联给密集深度估计带来了挑战。
因此,这篇文章提出了一种新的范式,RadarCam-Depth,它充分利用了稳健且多功能的无尺度单目深度预测,并学习将度量密集尺度分配给雷达数据的单目深度。新范式提供了两个主要优点:(i) 绕过了直接融合原始数据或异构雷达和摄像头数据的编码,从而防止了深度估计中的混叠伪影,并保留了高保真的密集深度估计中的细节。(ii) 不同于通过广泛收敛盆地学习深度完成,新范式是学习完成通过将雷达深度与单目深度对齐得到的稀疏尺度,这更易于有效学习。
下面一起来阅读一下这项工作~
1. 论文信息
标题:RadarCam-Depth: Radar-Camera Fusion for Depth Estimation with Learned Metric Scale
作者:Han Li, Yukai Ma, Yaqing Gu, Kewei Hu, Yong Liu, Xingxing Zuo
机构:浙江大学、慕尼黑工业大学
原文链接:https://arxiv.org/abs/2401.04325
2. 摘要
我们提出了一种新颖的度量稠密深度估计方法,基于单视图图像和稀疏、嘈杂的雷达点云的融合。直接融合异构雷达和图像数据,或它们的编码,往往会产生具有明显伪影、模糊边界和次优准确性的稠密深度图。为了避免这个问题,我们学习增强多用途且稳健的单目深度预测,使用从稀疏和嘈杂雷达数据引入的稠密度量尺度。我们提出了一个雷达-相机框架,用于高度精确和细节丰富的稠密深度估计,包括单目深度预测、将单目深度与稀疏雷达点进行全局尺度对齐、通过学习雷达点和图像块之间的关联来进行准密度量尺度估计、以及使用尺度图学习器对稠密深度进行局部尺度细化,共四个阶段。我们提出的方法在具有挑战性的nuScenes数据集和我们自行收集的ZJU-4DRadarCam数据集上,将深度估计的平均绝对误差(MAE)分别降低了25.6%和40.2%,明显优于最先进的雷达-相机深度估计方法。
3. 效果展示
顶层:提出的RadarCam-Depth的度量深度估计的3D可视化;中间:度量深度估计叠加在相应的误差图上;底层:与具有全局比例因子的雷达点进行单目深度对齐。深度估计表现出了出色的度量精度,并恢复了精细的细节。
(a)在杂乱的大尺度场景下对输入图像进行度量深度估计。(b)上行列表示投影到图像中的真实深度和雷达点,其余行从上到下分别表示RadarCam - Depth和相应的误差图。RadarCam - Depth显示出更高的准确性和精细的细节。
4. 主要贡献
(i) 引入了第一种方法,将从嘈杂和稀疏雷达数据中精细推断出的密集度量尺度与高度可泛化的无尺度单目深度预测相结合,从而增强了单目深度预测的普适性。
(ii) 提出了一种新颖的度量密集深度估计框架,有效地融合了异构雷达和摄像头数据。框架包括四个阶段:单目深度预测、单目深度的全局尺度对齐、雷达-摄像头准密度尺度估计以及用于在局部细化准密度尺度的尺度图学习器。
(iii) 所提出的方法在nuScenes基准和自行收集的ZJU-4DRadarCam数据集上进行了广泛测试。它超越了最先进的技术,显著提高了雷达-摄像头密集深度估计的度量准确性和坚实的泛化能力。
(iv) 为了解决缺乏基于4D雷达的深度估计数据集的问题,将发布高质量ZJU-4DRadarCam数据集,包括原始4D雷达数据、RGB图像和经过精心生成的来自激光雷达测量的地面真实深度图。此外,代码将开源以促进进一步的研究。
5. 具体原理
RadarCam - Depth的整体框架
包括四个阶段:单目深度预测,单目深度与稀疏Radar深度的全局对齐,学习到的准稠密尺度估计,以及用于细化稠密深度估计的局部尺度的尺度图学习器。d和s表示深度和尺度,z = 1 / d表示逆深度。
5.1 单目深度预测
使用现成的网络来预测来自单视图图像的稳健且准确的无标度深度,利用MiDaS v3.1和DPT-Hybrid等SOTA单目深度网络。这两个网络都是基于transformer架构构建的,并使用尺度和偏移不变损失进行训练,确保了强大的泛化能力。它们推断像素之间的相对深度关系,产生稠密深度。
5.2 全局对齐
通过全局缩放因子和可选偏移将无标度单目深度预测与来自原始雷达点投影的雷达深度进行对齐,全局对齐的单目深度被馈送到后续的尺度地图学习者(SML)。在执行投影雷达深度和单目深度预测之间的全局对齐时,有许多选择:
(i)Var:对于单目深度的各个帧,通过根查找算法计算可变的尺度因子。
(ii)Const:对于所有单目深度预测的帧,使用恒定的尺度因子,被视为整个训练样本上尺度估计的平均值。
(iii)LS:对于各个帧,使用线性最小二乘优化计算尺度因子和可选偏移。
(iv)RANSAC:对于各个帧,使用线性最小二乘法计算尺度因子和可选偏移,并结合雷达深度的RANSAC异常值拒绝。随机采样5个具有有效值的雷达点,估算采样雷达深度的尺度因子和可选偏移,并采用产生超过90%内点比率的第一对尺度因子和可选偏移。假设雷达深度与对应像素位置处的对齐单目深度之间的差异小于6m(或逆深度差异小于0.015),则它是一对内点关联。
5.3 准稠密尺度估计
由于雷达数据中固有的稀疏性和噪声,必须在进行尺度地图学习之前对原始雷达深度进行额外增强。为了使从投影获得的稀疏雷达深度变得更加密集,利用基于transformer的雷达-相机数据关联网络(RC-Net),该网络预测雷达像素关联的置信度。在投影期间未直接对应雷达点的像素可能与相邻雷达点的深度关联,从而将稀疏雷达深度稠密化为准稠密深度图。
1)网络架构: RC-Net在RC-vNet基础上进一步在transformer模块中整合了自注意力和交叉注意力。图像编码器是标准的ResNet18主干,每层具有32、64、128、128、128个通道,雷达编码器是由32、64、128、128、128个通道的全连接层组成的多层感知器。雷达特征被平均池化并重塑为图像特征的形状。随后,雷达和图像特征被扁平化并传递给N=4层自注意力和交叉注意力,其中包括了一个更大的接受域用于跨模态关联。最后,通过sigmoid函数激活logits以获得跨模态关联的置信度图。
2)跨模态关联的置信度:对于雷达点及其投影区域内的裁剪图像块,使用RC-Net来获取一个置信度图,描述像素是否匹配的概率。
5.4 尺度地图学习者
基于 MiDaS-small架构构建了一个尺度地图学习者(SML)网络。SML旨在学习像素级密集尺度地图,完成准稠密尺度地图并提高度量精度。
6. 实验结果
以50、70、80米范围来评估米制稠密深度。
RadarCam - Depth优于所有对比的Radar -相机方法,在所有范围内都大幅超越了次优方法。具体来说,50m、70m和80m的MAE分别降低了25.6 %、23.4 %和22.5 %,RMSE分别降低了20.9 %、20.2 %和19.4 %。此外,RadarCam - Depth不需要聚合多帧雷达点云或多视角图像。
在ZJU - 4DRadarCam数据集上进行度量稠密深度估计的评估。
使用DPT模型的方法在深度度量上表现更好,而使用Mi Da S模型的方法在反深度度量上表现出更高的精度。
在基于DPT的单深度预测配置下的运行时间。
Mono-Pred和GA可以与RC-Net同时运行。对于不同尺度的全局对齐方法,GA ( Var )和GA ( LS )表现出相对较快的速度,而GA ( RANSAC )明显缓慢,不提倡使用。
消融实验
7. 总结 & 未来工作
这篇文章提出了一种新颖的方法,通过将单目深度预测与稀疏且嘈杂的雷达点云的比例结合起来,来估计密集的度量深度。作者提出了一个专门的四阶段框架,有效地结合了图像的高保真细节和雷达数据的绝对比例,克服了现有方法中基于雷达和图像数据或其编码的方向融合所表现出的细节丢失和度量不精确的固有挑战。实验结果明确证明了所提出的方法在定量和定性评估上明显优于基线方法,这得到了充分的证实。总的来说,RadarCam -- Depth是一种开创性的度量深度估计解决方案,适用于将相机与3D或4D雷达融合应用。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程:
3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。
▲长按扫码学习3D视觉精品课程
3D视觉学习圈子
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。