利用多个传感器对于自动驾驶的强语义感知至关重要,因为每种传感器类型都有其互补的优势和劣势。然而,现有的传感器融合方法通常将传感器在所有条件下统一处理,导致性能不佳。
相反,作者提出了一种新颖的、条件感知的多模态融合方法,用于对驾驶场景进行强语义感知。
作者的方法CAFuser,使用RGB相机输入来分类环境条件,并生成一个条件 Token ,引导多个传感器模态的融合。
作者还进一步新引入了模态特定的特征 Adapter ,将不同的传感器输入对齐到共享的潜在空间,从而实现与单个和共享预训练 Backbone 的高效集成。
通过根据实际条件动态调整传感器融合,作者的模型在恶劣条件下的鲁棒性和准确性显著提高,尤其是在公共基准测试上。
在MUSES数据集上,作者使用CAFuser取得了新的最先进水平,多模态全像素分割的PQ值为59.7,语义分割的mIoU值为78.2,位居公共基准测试的首位。
I Introduction
当前自动驾驶系统的感知 Pipeline 在正常、清晰天气条件下能取得出色成果,但在遇到恶劣条件时仍感挣扎。这使得实现终极第五级自动驾驶难以实现,因为需要一个可靠感知系统和一个无限操作设计域(ODD)。一个主要的关联挑战是准确像素级语义解析驾驶场景,因为实验证据[1]显示,这种高层次解析对于预测和规划等下游驾驶任务有益。
由于上述的通用ODD要求,使用单一类型的传感器进行驾驶场景的密集语义感知是一种脆弱的选择。更具体地说,不同传感器在不同环境条件下的敏感度模式差异巨大。例如,标准RGB帧基于的摄像头具有出色的空间分辨率,但在低光照和恶劣天气下的测量值会急剧下降。激光雷达和事件摄像头相比之下对环境光照的抗干扰性更强,但它们也受到如雨滴或雪花的天气粒子等强烈影响。而雷达在恶劣天气下表现出色,但空间分辨率远低于激光雷达和摄像头。因此,在多模融合框架中利用车辆传感器套件的所有传感器输入,对于在夜间、雾、雨或雪暴等不良ODD下实现可靠的语义感知具有更大的前景。
作者观察到,尽管上述类型传感器的成本正在降低,并在自动驾驶车辆中得到广泛应用,但很少有人关注以一种_条件感知_的方式利用它们的互补优势。也就是说,目前的多模态融合方法将传感器 _在所有环境条件下均匀地融合在一起。然而,每个传感器的可靠性都强烈依赖于这些条件,因此在条件无关的方式将所有传感器融合在一起通常会导致性能不佳。因此,作者提出了一种多模态条件感知融合(CAF)模块,用于对驾驶场景进行健壮的语义感知。通过明确表示环境条件并调整传感器融合算法以这些表示,作者旨在实现一个适应性条件感知传感器融合模型,该模型知道其置信度分布,并已学会在那种置信度分布下哪些传感器更具信息量和可靠性。
作者的网络使用RGB摄像头输入来生成一个条件 Token (CT),以确保多个传感器的融合最优。通过使用类似于CLIP [2]中的文本 Prompt 的动词-视觉对比损失来学习这个 Token ,以确保CT嵌入与多模态输入数据的环境条件抽象语言描述对齐。通过端到端训练系统,作者的模型学会了动态适应实际条件,确保每个条件的传感器融合都得到优化,从而实现更准确的意义解析。
此外,现有的融合方法通常依赖于每个传感器模态单独的编码器,这导致了高的计算复杂性,并要求每个模态使用独立的训练流水线。然而,在实时自动驾驶系统中,效率至关重要。在这方面,最近的工作[4]表明,即使对于非RGB摄像头模态,大规模预训练模型仍然有效,显示了使用多个传感器模态共享 Backbone 网络的可行性。因此,作者激发引入一个用于从不同传感器模态提取特征的“单个网络 Backbone ”,同时仍保留每个模态的独特信息。
因此,作者提出了一种新颖的条件感知的多模态融合网络设计,该设计包括一个共享的背部,用于所有模态,以及每个模态的单个轻量级特征 Adapter [5]。作者将所有传感器输入投影到图像平面上,如先前的多模态分割方法[6, 7, 8]所示,以便它们都与输入到它们的后部骨架中的骨架兼容。
这种设计不仅高效,还具有两个额外的优点:
1)使用相同的骨架自然允许非RGB模态(如激光雷达、雷达和事件相机)映射到RGB兼容的特征空间;
2)特征 Adapter 可以提取模态特定的信息,为RGB模态提供互补特征。作者的实验表明,通过这种设计,模型参数(降低54%,而不牺牲性能)。
广泛实验表明,作者的方法,CAFuser(条件感知融合器),能够根据当前条件有效地学习融合不同模态。CAFuser在多模态全光学和语义分割方面创造了新的最先进水平,在公开MUSES[3]基准测试中排名第一。
作者的主要贡献可以概括如下:
-
条件感知融合:作者提出了一种名为条件 Token 的机制,该机制指导模型根据当前环境条件自适应地进行融合,从而在恶劣场景下显著提高鲁棒性。
-
高效架构:作者在共享 Backbone 传感器融合架构中首次使用特征 Adapter 。每个传感器的特征都在共享潜在空间中进行对齐,从而实现与预训练 Backbone 的高效集成,同时显著减小模型大小。
-
模块化和可扩展的设计:
作者的架构允许灵活和高效地添加各种传感器模态,使其适应各种传感器设置。
-
SOTA性能:
作者在多模态panoptic和语义分割中广泛评估并展示SOTA性能。
II Related Work
语义感知
是指在场景中理解环境,包括语义分割、实例分割和全像素分割等任务。语义分割关注将每个像素分类到预定义的类别中,而实例分割则区分出物体类别中的单个实例(如汽车、行人等)。全像素分割则通过预测图像中的“东西”(如天空、道路)和“物体”(如汽车、行人等)来实现语义和实例分割的统一。这些任务对于自动驾驶车辆和机器人非常重要,因为它们为下游任务(如路径规划、障碍避让和家庭服务机器人等)提供了必要的环境理解细节。
最近,基于 Transformer 的架构如MaskFormer [13]和Mask2Former [14]等已经提高了语义感知。EfficientPS [15]在不牺牲准确性的前提下提高了效率,MaskDINO [16]同时预测物体 Mask 和边界框,而OneFormer [17]使用单一架构和模型实现了实例、语义和全像素分割的最先进结果。与这些仅使用RGB的方法相比,作者通过利用多种传感器模式进行多模态语义感知,以在自主驾驶中实现对场景的可靠和准确理解。利用最近发布的MUSES数据集[3],该数据集包括RGB摄像头、激光雷达、雷达和事件摄像头,作者增强了语义感知的可靠性和准确性。
多模态特征融合
在自动驾驶中至关重要,因为不同的传感器提供互补信息。早期的研究侧重于利用RGB相机数据增强基于激光雷达的3D检测[18]。大规模数据集如KITTI[19]和nuScenes[20]推动了这一研究,但缺乏恶劣天气条件下的记录,这促使后续的合成[7]和真实世界数据集关注具有挑战性的环境。
融合技术从将两个特定模态[24, 25]融合,发展到RGB-X融合与任意模态[26, 27]融合。像HRFuser [6]和CMNeXt [7]这样的方法引入了能够处理多个任意传感器输入的架构,采用了模块化设计和注意力机制。StitchFusion [28]将大规模预训练模型直接作为编码器和解码器融合,使用一个多方向 Adapter 模块在编码过程中进行跨模态信息传递。
最近的工作,如SAMFusion [29],探索了针对3D检测的模态特定多模态融合,而[30]则研究了使用共享 Backbone 但缺少特征 Adapter 的模态无关多模态融合,这导致了过度依赖两种模态,而添加激光雷达或事件数据时没有性能提升。GeminiFusion [8]将内模态和跨模态注意力结合,动态集成跨模态的互补信息,这是多模态语义分割的最新技术。MUSES [3]通过局部窗口交叉注意力来合并多个独立 Backbone 的特性,实现多模态全视图分割。
尽管这些工作在复杂环境中提高了感知能力,但它们通常统一地将传感器模式融合在一起,而没有明确地适应如雾或低光等环境条件。相比之下,作者在共享潜在空间中进行条件感知融合,使作者的模型能够动态地适应环境条件,从而提高多模态语义感知的能力。
条件感知感知
结合环境知识来指导感知。 通过在融合阶段显式地分配更高权重来解决2D目标检测问题,方法是分配具有更好检测特征的模态更高的权重。CoLA [32] 通过利用预训练的视觉语言模型和 Prompt 学习器来增强显著目标检测,以调整噪声或缺失输入。在 [33] 中,作者从视觉语言模型中提取知识,用于无模态表示,而不关注条件感知的预测。相比之下,作者使用由口头场景描述监督的条件 Token 来显式编码详细的环境条件。
这个 Token 动态地指导作者的传感器融合,从而在不同的ODD上提高分割的鲁棒性。
特征 Adapter 提供了一种轻量级解决方案,将不同传感器模态集成到共享模型中。CLIP-Adapter 使用具有残差连接的MLP Adapter 来适应特征,避免过拟合。在中,采用了模态共享和模态特定的 Adapter 进行RGB-热跟踪。EventClip [4] 使用特征 Adapter 将事件数据与CLIP特征对齐。尽管这些方法关注双模态融合,但作者的网络将特征 Adapter 扩展到将来自多个模态的多样输入对齐到共享潜在空间,实现灵活的多模态融合。
III Method
作者在MUSES数据集[3]中提出的多模态融合方法的基础上构建了作者的模型,该方法通过调整Mask2Former[14]并使用多分支多模态 Backbone 网络和每个特征 Level 的MWCA融合块[6]来实现多模态分割。
由于OneFormer[17]已经超过了Mask2Former,作者采用了MUSES中使用的先前多分支融合架构,并将其集成到OneFormer分割框架中,作者称之为“OneFormer-MUSES”,并将其作为强大的多模态 Baseline 。除另有说明外,所有实验都使用Swin-T[37] Backbone 网络,因为计算限制。
Multimodal Adapter
如图2所示,作者使用一个通用的backbone来处理所有模态,而不是为每个模态分别使用单独的backbone,以简化并优化融合过程。作者使用ImageNet预训练的backbone作为初始化,对应于RGB摄像头模态。在进行预处理时,作者遵循MUSES,将每个传感器的数据(例如,激光雷达、雷达)作为3通道图像投影到RGB平面上。此外,作者对整个数据集进行归一化,以确保输入表示与RGB模态一致。
为了在保持竞争性能的同时显著降低模型参数(参见第IV-B节),作者使用了一个轻量级 Adapter ,它由一个具有4倍隐藏维度减少的2层MLP组成,从而实现高效特征转换。可学习的参数α控制着适应和原始特征的加权。
从Swin Backbone 网络的4级特征金字塔中,每个模态和每个特征图都使用每个阶段的单个 Adapter 进行适应。对于4个模态和4个特征 Level ,这导致有16个单独的轻量级 Adapter 。
在IV-B节中,作者表明这种设置允许作者在不损失性能的情况下将参数减少54%。
Condition-Aware Fusion
由于传感器的可靠性会根据环境条件发生变化,作者提出了一种条件感知融合(CAF)机制,该机制可以根据当前的ODD动态地调整传感器融合。由于在推理时无法假设已经存在标签条件数据,作者从RGB摄像头输入中生成一个条件 Token ,并使用它来调节融合过程。RGB摄像头可以捕获足够的全局环境信息,以有效地表示场景条件,避免了处理额外模态的计算开销。
条件 Token (CT):作者的CT生成,如图2所示,首先将最高级的RGB特征图进行 flatten,然后通过一个具有2个编码器层和2个解码器层的Transformer进行处理。在训练过程中,作者使用一个使用基于详细环境条件描述的文本 Prompt 的动词-视觉对比损失来直接监督生成的CT。为此,MUSES数据集提供了几个关键场景属性,包括天气状况、降水类型和 Level 、地面状况、昼夜时间和天空状况。作者从这些属性中自动创建一个条件 Prompt ,通过稍微调整它们以适应一个连贯的句子。例如,Sunlight的天空状况变为一个晴朗的天空。作者进一步将降水类型和 Level 合并为一个降水文本(例如轻雨),并根据上下文填充空条件标签:例如,夜间天空状况属性经常缺失,被填充为黑暗。使用这些属性,作者为每个场景构建一个丰富的、描述性的条件 Prompt ,使用以下模板:
作者遵循 [17] 的方法,从编码的条件 Prompt 中生成文本 Query (
)。这一步骤包括条件 Prompt 的 Token 化以及通过一个6层 Transformer 文本编码器 [38] 进行处理,并与四个上下文 Token
[17, 39] 堆叠。对于生成的
和 CT,作者应用