专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
蛋先生工作室  ·  最新淘汰鸡行情 ·  14 小时前  
超级美工  ·  25种排版问题,你别再乱排版了! ·  1 周前  
蛋先生工作室  ·  最新淘汰鸡行情 ·  2 天前  
澳門政府消費者委員會  ·  【最新物價】調查嬰兒奶粉、個人護理用品及非處 ... ·  2 天前  
浙江省网商协会  ·  【会员动态】是的,今天的热搜榜一,是交个朋友! ·  2 天前  
浙江省网商协会  ·  【会员动态】是的,今天的热搜榜一,是交个朋友! ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

LV融合革命!ReliFusion动态抗故障:3D目标检测性能飙升 ~

自动驾驶之心  · 公众号  ·  · 2025-03-11 07:30

正文

作者 | AI 驾驶员 编辑 | 智驾实验室

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线
>>点击进入→ 自动驾驶之心 『3D目标检测』技术交流群
本文只做学术分享,如有侵权,联系删文

精确且鲁棒的3D目标检测对于自动驾驶至关重要,融合来自激光雷达和摄像头等传感器的数据可以增强检测精度。然而,传感器故障,如数据损坏或断开连接,可能会降低性能,现有的融合模型在某一模态失效时往往难以保持可靠性。

为此,作者提出了ReliFusion,这是一种新型的在鸟瞰视图(BEV)空间中运行的激光雷达-摄像头融合框架。ReliFusion集成了三个关键组件:时空特征聚合(STFA)模块,它能够捕捉帧之间的依赖关系,从而稳定预测;

可靠性模块,它为每种模态在挑战性条件下分配置信度分数,以量化其可靠性;以及置信度加权互信息交叉注意力(CW-MCA)模块,该模块根据这些置信度分数动态平衡激光雷达和摄像头模态的信息。

在nuScenes数据集上的实验表明,ReliFusion在具有有限激光雷达视场和严重传感器故障的场景中,显著优于最先进的方法,实现了卓越的鲁棒性和准确性。

图1:ReliFusion方法与先前方法的对比说明。(a)传统方法依赖于固定的融合机制,在传感器故障时表现不佳。(b)ReliFusion引入了一个可靠性模块,包含对比和置信度模块,为激光雷达(C_LiDAR)和摄像头(C_Camera)分配置信度分数。这些分数能够使融合模块中激光雷达和摄像头贡献的动态平衡,即使在困难条件下也能实现鲁棒且精确的3D目标检测。

1. 引言

随着信息技术的飞速发展,人工智能技术已经渗透到社会生活的各个领域,对经济发展、社会进步和人类生活产生了深远的影响。为了深入探讨人工智能技术的研究现状和发展趋势,本文旨在对人工智能领域的关键问题进行综述,并对未来研究方向提出建议。

请注意,这里仅为示例翻译,具体内容需要根据实际学术论文的上下文进行调整。如果您有特定的引言段落需要翻译,请提供具体文本,我将根据您的要求进行翻译。

在自动驾驶领域,可靠的3D目标检测至关重要,其中激光雷达和摄像头传感器提供了互补的空间和语义数据,这对于精确的环境感知至关重要。虽然激光雷达捕捉详细的3D空间信息,但摄像头提供了丰富的语义细节,使得多模态融合成为实现鲁棒感知的可行方案。尽管如此,许多现有的融合方法对传感器故障敏感;当某一模态出现损坏,如激光雷达遮挡或摄像头遮挡时,它可能会严重降低另一模态的性能,从而损害整体检测的准确性和鲁棒性。

当前融合技术往往高度依赖激光雷达分支以实现精确的3D定位,如使用早期、中期或后期融合策略的激光雷达主导模型[4; 5; 6]所示。然而,这种依赖性存在风险;如果激光雷达数据部分受损,常常会导致检测结果不可靠甚至失败。一些模型试图通过在鸟瞰图(BEV)空间中整合摄像头数据来解决这个问题,其中解耦的特征提取允许每个模态独立处理[7; 8; 9]。

尽管如此,这些方法仍然容易受到单模态故障的影响,因为它们无法根据每个传感器的输入可靠性适当地调整融合权重。

针对现有融合模型在传感器故障下的局限性,作者提出了ReliFusion,这是一种新型的激光雷达-摄像头融合框架,旨在通过动态适应传感器可靠性的变化来增强3D目标检测的鲁棒性。ReliFusion在BEV(鸟瞰图)空间中运行,并集成了三个关键组件。STFA模块首先处理输入数据,捕捉帧间的依赖关系,以稳定预测并提高检测的一致性。随后,可靠性模块利用跨模态对比学习(CMCL)在共享嵌入空间中对激光雷达和摄像头特征进行对齐,区分可靠和损坏的数据对,并生成反映每种模态可靠性的置信度分数。最后,CW-MCA模块利用这些置信度分数动态融合激光雷达和摄像头数据,为更可靠的模态分配更高的权重,并减轻退化输入的影响。

作者的在nuScenes[10]数据集上的实验验证了ReliFusion的有效性,展示了在各种传感器退化场景下检测精度和鲁棒性的显著提升。通过解决传感器可靠性和融合的挑战,ReliFusion建立了一种在自动驾驶中常见挑战条件下进行准确目标检测的稳健方法。

作者的主要贡献可以概括如下:

1.作者开发了一个利用CMCL生成置信分数的可靠性模块,有效地量化了每种模态的可靠性,并区分了损坏和可靠的数据。该模块对于确保自适应和鲁棒的多模态融合至关重要。

作者引入了一个CW-MCA模块,该模块利用可靠性模块中的置信分数来动态平衡激光雷达和相机数据的贡献,即使在退化传感器条件下也能确保稳健的融合。

作者提出了ReliFusion,一个新型的激光雷达-相机融合框架,它集成了这些组件,以动态适应传感器可靠性,在具有挑战性的场景中增强3D目标检测的鲁棒性和准确性。

2. 相关工作

在探讨人工智能领域的研究之前,了解现有研究及其进展对于深入理解和分析新的研究方向至关重要。本节将概述与本文研究紧密相关的工作,包括但不限于以下几方面:

  1. 深度学习在图像识别中的应用 :近年来,深度学习技术在图像识别领域取得了显著的成果。例如,卷积神经网络(CNN)在多种图像识别任务中表现出色,如人脸识别、目标检测和图像分类。

  2. 强化学习在决策系统中的应用 :强化学习作为一种重要的机器学习算法,在决策系统和游戏领域得到了广泛应用。研究者们通过强化学习算法实现了智能体在复杂环境中的自主学习和决策能力。

  3. 自然语言处理的发展 :自然语言处理(NLP)是人工智能领域的一个重要分支。近年来,随着深度学习技术的不断发展,NLP在文本分类、机器翻译和情感分析等方面取得了显著进展。

  4. 知识图谱与推理 :知识图谱作为一种知识表示方法,在信息检索、推荐系统和问答系统中发挥着重要作用。研究者们利用知识图谱进行推理,以增强智能系统的知识表达和推理能力。

  5. 跨学科研究 :人工智能领域的研究与多个学科密切相关,如计算机科学、心理学、生物学等。跨学科研究有助于推动人工智能技术的创新和发展。

在后续章节中,作者将详细介绍本文的研究内容,并在相关工作中探讨其创新点和贡献。

2.1S 单模态3D目标检测

单模态3D目标检测方法仅基于激光雷达或摄像头数据,各自具有特定的优势。基于激光雷达的技术利用精确的空间数据生成准确的3D表示。PointNet [11] 首次实现了点云的直接处理,VoxelNet [12] 在此基础上进一步发展,引入了 Voxel 化特征以提高效率和空间细节。

随后,如SECOND [13] 和PV-RCNN [14] 等方法在此基础上进行了扩展,通过增强空间表示和优化特征提取,产生了更可靠的边界框预测。另一方面,仅使用摄像头的方案虽然在深度精度上有限,但提供了语义丰富性,这对于物体分类至关重要。DETR3D [15] 使用Transformer将2D图像特征提升到3D空间,而BEVDepth [16] 通过精细的视角变换增强了深度估计,实现了更好的3D定位。然而,单模态方法本身缺乏多模态融合所能提供的互补见解。

2.2 多模态传感器融合

多模态融合方法将富含空间信息的激光雷达数据与语义信息丰富的摄像头数据相结合,形成一个综合感知模型。基于BEV(Bird's Eye View,鸟瞰图)的融合已成为此类集成的一种常见框架,如BEVFusion [7; 8] 和相关模型 [17; 18] 采用liftplat-shoot(LSS)变换 [19] 来对齐BEV空间中的图像数据,使其能够有效地与激光雷达特征融合。

这种方法使模型能够捕捉空间几何和语义丰富性,创建一个统一的特征空间,从而提高检测性能。CMT [20] 和 MSMD-Fusion [17] 利用注意力机制和分层融合策略来对齐和整合激光雷达与摄像头特征。虽然CMT模型通过 Transformer 进行交互,而MSMD-Fusion采用多尺度融合,但这些方法没有考虑传感器的可靠性,限制了在传感器退化情况下的性能。

2.3 时间融合

时间融合技术通过对多个帧的特征进行聚合,通过捕捉运动和连续性来提升检测性能。BEVDet4D[21]和BEVFormer [22]利用时间BEV表示来在时间上整合信息,增强了对抗暂时遮挡的鲁棒性。例如,BEVDet4D通过逐帧协调BEV特征,而BEVFormer则应用时空 Transformer 来整合跨帧数据,实现了时间上的稳定检测。同样,3D-VID [23]利用点云帧之间的注意力机制来捕捉物体变换,在动态驾驶场景中提供了改进的检测效果。尽管时间融合捕捉了场景连续性,但它并未完全解决单个帧内数据退化的问题。

2.4 激光雷达与摄像头融合的鲁棒性

确保激光雷达-摄像头融合的鲁棒性变得越来越重要,尤其是在处理来自这两种模态的噪声或部分损坏的数据时。TransFusion[24]利用基于 Transformer 的自适应加权,优先考虑可靠的传感器输入,显示出在管理模态特定可靠性方面的潜力。

GAFusion[18]进一步优化了这一方法,利用激光雷达提取的深度信息来引导自适应融合,有选择性地优化摄像头特征,在恶劣条件下增强跨模态交互。SparseFusion[25]通过利用两种模态的稀疏表示来进一步增强鲁棒性,提高效率同时管理挑战场景下的数据质量。尽管这些方法提高了融合的鲁棒性,但它们通常缺乏根据实时传感器可靠性动态调整融合权重的明确机制,使融合过程在不利传感器条件下容易受到可靠性问题的影响。

图2:ReliFusion的整体架构。

ReliFusion通过引入一个可靠性模块来解决现有方法的局限性,该模块根据实时置信度评分动态调整激光雷达和摄像头特征的贡献。这些评分通过CMCL(冲突度量计算)得出,指导CW-MCA模块进行鲁棒的多模态融合。

此外,STFA模块通过利用跨帧依赖性增强检测稳定性,即使在传感器退化的情况下也能保证准确的表现。

3. 可靠融合

作者提出的方法通过一个鲁棒的融合框架整合了激光雷达点云和多视角图像数据,每个组件在端到端集成之前都独立预训练以提高特定的功能。

如图2所示,ReliFusion包含五个关键组件:(1) 激光雷达和多视角图像特征提取,(2) STFA用于时间一致性,(3) 可靠性模块用于可靠性评估,以及(4) CW-MCA用于最终融合。

3.1 多视角图像与激光雷达特征提取

作者的模型输入包括激光雷达点云和同步的多视角图像。激光雷达点云通过一个3D Backbone 网络进行处理,生成空间准确的鸟瞰图(BEV)特征,记作 。同时,多视角图像通过一个2D卷积 Backbone 网络处理,为每个视角生成初始图像特征

为了将图像特征与由激光雷达生成的鸟瞰视图(BEV)特征整合,作者使用提升-投射-射击(LSS)操作[19]将图像特征转换为统一的BEV空间。

该操作在BEV空间中聚合多视角图像数据,使它们能够与激光雷达BEV特征融合。由此得到的BEV转换后的图像特征FCamera-BEV作为后续时间处理和可靠性关注步骤的基础。

3.2 空间-时间特征聚合(STFA)

在动态环境中进行精确的3D目标检测需要一种鲁棒的表现形式,它能够捕捉到每个时间步内的空间关系以及时间步之间的时序依赖。作者引入了STFA模块,该模块依次应用空间注意力和时序注意力机制。

该模块包含了可学习的空间嵌入和时序编码,以确保有效的特征聚合。

空间注意力机制在多视角聚合中的应用

在每一个时间步长 ,通过共享的卷积神经网络(CNN) Backbone 网络提取多视角图像特征 ,其中索引表示视角。这些鸟瞰视图(BEV)特征 被展平并投影到嵌入空间中:

为一个可学习的权重矩阵, 为一个偏置向量,而 Flatten 函数将特征图 Reshape 为一个序列的情况下。

为了在同一时间步内建模不同视图之间的关系,作者采用了空间自注意力机制。对于给定的视图 ( Query ),考虑了所有视图 ( Key和Value )的嵌入 ,包括 。注意力权重计算如下:

在何处:

是可学习的投影矩阵。在时间 ,视图 的注意力值由以下公式给出:

最后,将所有视图的空间聚合特征组合成一个单一的时间 表示。

这个过程确保每个视图都关注到其他所有视图,有效地结合互补信息,同时保持自我相似性(k=j)。空间自注意力机制减轻了遮挡,增强了聚合特征的空间一致性[26; 27]。

时间注意力机制在跨时间依赖性中的应用

空间聚集的特征集合 (其中 表示时间步数)通过时间注意力机制进行处理,以捕捉时间序列中的依赖关系。时间嵌入被添加以编码序列的顺序:

代表每个时间步 的可学习的时间编码。时序注意力计算跨越所有时间步的关系:

在何处:

对于 以及 是可学习的投影矩阵,聚合的时间特征为:

这一步建立了时间相关性模型,确保了不同时间步长之间的特征能够有效整合。通过捕捉时间动态,时间注意力机制增强了模型处理运动和其他时间相关现象的能力[28; 27]。

基于层归一化进行细化

每种注意力机制之后都跟随层归一化和残差连接,以稳定训练过程[27]。







请到「今天看啥」查看全文