专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
电商头条  ·  千万网红留几手带货翻车,惨不忍睹 ·  2 天前  
电子商务研究中心  ·  铁路12306崩了?马蜂窝发布国内首个省级旅 ... ·  2 天前  
电子商务研究中心  ·  春节网购狂欢背后的隐忧 ... ·  2 天前  
电子商务研究中心  ·  直播带货又“翻车”!辛巴公司被罚175万元 ... ·  2 天前  
你的Sneaker  ·  发售|2.6 线下线下发售信息!(AJ 1 ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

AAAI'25开源 | HGSFusion:全面增强复杂天气下的3D目标检测!

计算机视觉工坊  · 公众号  ·  · 2025-01-11 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:HGSFusion: Radar-Camera Fusion with Hybrid Generation and Synchronization for 3D Object Detection

作者:Zijian Gu, Jianwei Ma, Yan Huang, Honghao Wei, Zhanye Chen, Hui Zhang, Wei Hong

机构:Southeast University、Washington State University

原文链接:https://arxiv.org/abs/2412.11489

代码链接:https://github.com/garfield-cpp/HGSFusion

1. 导读

毫米波雷达由于其全天候和全光照条件的感知能力,在自动驾驶的3D对象检测中起着至关重要的作用。然而,雷达点云遭受明显的稀疏和不可避免的角度估计误差。为了解决这些限制,结合照相机可以部分地帮助减轻缺点。然而,雷达和相机数据的直接融合会导致负面甚至相反的效果,因为图像中缺乏深度信息,并且在不利的光照条件下图像特征质量低。因此,在本文中,我们提出了具有混合生成和同步的雷达-相机融合网络(HGSFusion),旨在更好地融合雷达潜力和图像特征以用于3D目标检测。具体来说,我们提出了雷达混合生成模块(RHGM ),它充分考虑了雷达信号处理中的波达方向(DOA)估计误差。该模块在语义信息的辅助下,通过不同的概率密度函数(pdf)生成更密集的雷达点。同时,我们引入了双同步模块(DSM ),包括空间同步和模态同步,以增强具有雷达位置信息的图像特征,并促进不同模态的不同特征的融合。大量的实验证明了我们的方法的有效性,在VoD和TJ 4d数据集上优于最先进的方法6.53%和2.03%分别在RoI AP和BEV AP。

2. 效果展示

获取雷达点云时角度估计误差的示意图。)图像中显示真实点和估计点。(b)雷达DOA估计中显示真实点和估计点。估计点落在波束形成峰值上,偏离真实点。

RHGM中的点云生成。首先,原始雷达点投影到图像上,落在掩模内的点被选为前景点。随后使用这些前景点生成生成概率分布。最后,利用概率分布创建由原始雷达点(掩模内/外点)、前景点以及生成的高斯/均匀点组成的混合雷达点。

3. 引言

三维目标检测是自动驾驶中的一项关键任务,其核心在于准确确定周围物体的位置、尺寸和方向。摄像机、雷达和激光雷达等多种传感器,因其具有不同的数据结构和特性,已被广泛用于目标检测。为了实现准确有效的目标检测,由摄像机提供的语义信息和由雷达或激光雷达提供的位置信息都至关重要。

最初,基于摄像机的方法被用于目标检测,并且近年来仍然是研究热点。图像中的语义信息有助于区分物体类别和识别小目标。然而,图像缺乏深度信息,使得仅凭图像准确定位物体颇具挑战性。此外,恶劣天气条件容易影响摄像机的性能(,从而降低检测系统的鲁棒性。因此,如何充分利用图像中丰富的语义信息,同时弥补其在深度和鲁棒性方面的不足,已成为亟待解决的问题。

位置信息可由雷达或激光雷达供。特别是雷达系统,能够以更低的成本在恶劣天气条件下提供额外的速度信息和增强的鲁棒性。然而,与激光雷达相比,雷达点云表现出更明显的稀疏性,从而降低了检测性能,尽管针对此问题的潜在解决方案相当有限。专为处理激光雷达点稀疏性而设计的方法在直接应用于雷达点时,无法实现最佳性能。此外,传统雷达信号处理以获得雷达点云的过程,涉及对雷达回波信号应用恒虚警率(CFAR)算法,然后通过CFAR对检测到的目标进行角度估计。到达角(DOA)估计的波束形成峰值是雷达点的估计角度,它偏离了真实的雷达点。这种偏差被投影到图像上,雷达点的估计误差可能会降低检测性能。

雷达点云的稀疏性可能导致目标上仅存在少量点,而角度估计误差会使点云分布在错误的位置。这两个因素都显著降低了基于雷达的方法的检测性能。 推荐课程: 面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

为进一步提高检测性能,越来越多的研究聚焦于通过融合方法利用不同模态的互补信息。尽管将来自不同模态的特征进行简单拼接可以带来一定的改进,但由于雷达的角度分辨率有限以及图像中缺乏深度信息,会导致特征错位。因此,开发跨模态的有效特征融合策略,并缓解特征错位问题,已成为亟待关注的关键问题。

在本文中,我们介绍了一种名为HGSFusion(混合生成与同步)的雷达-摄像机融合网络,旨在充分发挥雷达的潜力,并促进摄像机和雷达数据在三维目标检测中的整合。特别是,所提出的雷达混合生成模块(RHGM)通过估计点落入掩码(也称为前景点)来生成更密集的雷达点。在生成过程中,采用不同的概率分布来减轻由DOA估计引起的角度误差的影响。随后,通过单独的骨干网络提取图像和雷达的特征,并将其转换为统一的鸟瞰图(BEV)空间。然后,双同步模块(DSM)利用空间同步来增强雷达特征中的位置信息对应的图像特征,并利用模态同步来减轻不利光照条件下图像特征的影响。在VoD和TJ4DRadSet数据集上进行的广泛实验取得了最先进的(SOTA)性能,验证了所提出的混合生成和双同步的有效性和鲁棒性。

4. 主要贡献

本文的主要贡献如下:

• 我们提出了一种新颖的雷达-摄像机融合网络HGSFusion,以增强雷达点和图像的融合。

• 雷达混合生成模块(RHGM)利用雷达点云成像过程中得到的点云分布来生成更密集、质量更高的雷达点云。

• 双同步模块(DSM)利用雷达提供的位置信息引导三维图像特征,并利用互补信息生成融合的BEV特征。

• 在VoD和TJ4DRadSet数据集上进行了大量实验,证明了网络及其各个组件的有效性,在感兴趣区域(RoI)平均精度(AP)和BEV AP方面分别比最先进的VoD和TJ4DRadSet数据集高出6.53%和2.03%。

5. 方法

HGSFusion的总体架构如图2所示。在雷达分支中,RHGM利用原始雷达点和图像获得前景点并生成更密集的雷达点。这些混合点(生成点、前景点和原始雷达点)被编码并发送到雷达骨干网络,以生成雷达BEV特征和空间模式。在图像分支中,相应的单目图像通过图像骨干网络获得多尺度图像特征,用于后续的二维到三维视图转换和高度压缩,从而生成图像BEV特征。图像和雷达BEV特征在DSM中融合后,被送入检测头。

6. 实验结果

7. 总结

本文提出了一种开创性的网络HGSFusion,它将4D成像雷达和图像融合在一起,以增强3D目标检测。通过创新地使用考虑DOA估计误差的RHGM混合生成技术,缓解了雷达点稀疏和角度估计误差的问题。在DSM中,空间同步利用雷达的位置信息增强图像特征,补偿图像深度不足的问题。此外DSM还采用模态同步来测量不同特征的重要性,从而减少恶劣天气下低质量图像特征的影响。大量的实验结果表明,HGSFusion在流行的VoD和TJ4DRadSet数据集中实现了最先进的性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文