专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
进出口财税通  ·  跨境电商出口海外仓预退税要理清这几个问题! ·  昨天  
Alisha全球出海日记  ·  跨境电商出海破局,高性价比推广服务来袭 ·  2 天前  
51好读  ›  专栏  ›  极市平台

Mamba与元学习双管齐下,打造新的语义补全方案!

极市平台  · 公众号  ·  · 2024-11-20 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨Yansong Qu等
来源丨自动驾驶之心
编辑丨极市平台

极市导读

本文提出了一种新的场景语义补全(SSC)方案,该方案结合了Mamba模型和元学习,旨在提高自动驾驶车辆在感知复杂驾驶场景时的能力。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

写在前面 && 笔者理解

传统的自动驾驶框架下,现有感知而后又规控,所以可以说感知在这套框架下扮演着非常基础性的工作。然而,动态交通参与者的突发性和可变性,加上静态对象的较大的范围和距离,给自动驾驶车辆在感知复杂驾驶场景时带来了不小的挑战。而在一众提高感知能力的方法中, 场景语义补全(Scene Semantic Completion,SSC) 作为一种同时推理驾驶场景的几何形状和语义的技术脱颖而出。如图1所示,与传统的依赖于单个目标检测和跟踪的感知任务不同,SSC通过填补部分或遮挡传感器输入中缺失的信息,提供了对环境更全面的理解。当传感器如激光雷达或摄像头被其他车辆或环境元素遮挡时,这种能力尤其关键。

不过,收集和标注大规模真实世界数据集是一个昂贵且劳动密集型的过程,而且能够收集到多样的真实世界交通情况也是一件比较有挑战的事情,比如一些像是车辆故障 or 行人碰撞的等长尾场景。所以,越来越多的研究人员愿意转向高保真的模拟器,如:CARLA等,来生成一些数据,虽然这些合成的数据与真实世界的数据还是存在一些domain gap。

当前的SSC解决方案通常依赖于 3D CNNs 来编码点云或RGB-D图像等输入数据,这些数据包含了丰富的空间信息。然而,3D CNNs在捕获细粒度场景表示或建模3D块之间的长序列关系方面有些许挑战,而这两者恰恰对于SSC任务至关重要。缺乏时间建模限制了它们跟踪环境动态变化的能力。

  • 论文链接:https://arxiv.org/pdf/2411.03672v1

作者这篇工作旨在解决两个关键gap:

  • 需要有效利用模拟数据以快速部署在真实世界场景中
  • 开发一种新的骨干网络,能够捕获长序列依赖关系和高分辨率空间信息。

所以,相应的,这篇工作的主要贡献主要总结如下:

  • 双相训练与元学习 作者采用双相训练策略,通过模型无关的元学习(MAML),在源域(由模拟器生成的数据集)上预训练模型,并在目标域(真实世界数据集)上进行微调。这种方法通过在微调过程中快速学习特定于域的特征,加速了对真实世界环境的适应。通过跨多个域的泛化,MAML减少了过拟合并提高了模型在新情况下的鲁棒性。
  • 用于长序列建模的新型骨干网络 作者引入了一种新的骨干架构,该架构集成了Mamba(一种选择性的状态空间模型(SSM)),可变形卷积和大核注意(DLKA)。Mamba提供了一种结构化机制,用于随时间处理序列数据,确保有效地捕获3D体素网格内的长距离依赖关系。可变形卷积允许模型动态调整接受域,增强了检测不同尺度物体的能力。同时,D-LKA增强了网络的注意力机制,专注于场景的关键区域,这提高了空间意识和决策能力。

相关工作

3D semantic scene completion for autonomous driving

SSC 任务就是从不完整的传感器输入中,推断大规模户外环境的几何形状和语义。它提供了对驾驶场景的完整理解,并预测缺失的元素,这对于自动驾驶至关重要。

Roldao 等人提出了 LMSCNet,这是一个多尺度网络,结合了 2D U-Net 主干和 3D 分割头。这种设计减少了全 3D 卷积的计算负担,同时保持了竞争性能。同样,Yan 等人引入了一个多任务学习框架,其中语义分割(SS)和 SSC 被联合训练。通过在两个任务之间共享特征,模型改进了几何和语义预测。这些方法使用单目 RGB 摄像头与 LiDAR 相比,可以降低部署成本。然而,在这种像素到点的转换过程中,可能会在 3D 空间的未占用区域引入虚假特征,降低模型性能。为了解决这些限制,最近的研究集中在改进像素到点的转换和提炼特征融合技术。一些方法将深度估计纳入 RGB 输入,而其他方法使用注意力机制来选择性增强相关特征。

Deformable large kernel attention

学习 SSC 任务中不同体素之间相关性的两种主要方法:

第一种方法使用大核和堆叠多层的 3D 卷积,使模型能够捕获 3D 空间中的长距离依赖。然而,随着层数的增加,计算成本呈指数增长,大量的参数需要更多的内存和训练时间。这些限制使其在实时应用中不切实际,尤其是在效率至关重要的自动驾驶场景中。

第二种方法使用自注意力机制,有选择地关注相关特征。自注意力在模拟远距离体素之间的关系方面提供了灵活性。然而,自注意力倾向于忽视场景的固有 3D 结构,将输入数据更多地视为展平的序列而不是结构化的空间信息。此外,自注意力不会动态适应通道维度的变化,限制了其在驾驶环境中表示复杂变换的能力。这些限制,加上基于注意力模型的计算开销,为在资源受限的系统中部署它们提出了挑战。

为了解决这些问题,研究人员探索了 可变形卷积 ,它引入了额外的偏移量,允许网络自适应地重新采样空间特征。这种方法通过关注输入最相关的区域来增强模型处理几何变化的能力,在复杂场景中的鲁棒性得到了提高。

Mamba on 3D semantic scene completion

Mamba 的精简架构减少了通常与 Transformer 相关的计算开销,使其非常适合需要快速推理的应用。它采用了轻量级设计,用更简单的线性变换替换了多头自注意力机制,同时仍然捕获输入元素之间的基本关系。

Zhu 等人开发了一个基于 Mamba 的通用视觉主干,用于模拟图像块之间的关系,展示了 Mamba 在计算机视觉任务中的潜力。通过有效地编码图像区域之间的关系,Mamba 为视觉处理中基于 Transformer 的模型提供了实用的替代方案。此外,Mamba 在 3D 建模任务中可能更加有效,其中 3D 块的序列比 2D 图像块长得多,也复杂得多。这一洞见鼓励研究人员探索将 Mamba 能力扩展到 2D 应用之外的新方法。

方法论

之前的研究表明,在多任务学习框架中结合语义分割(SS)和场景语义补全(SSC)可以提升两项任务的性能,其中 SS 提供详细的语义特征,补充 SSC 捕获的几何理解,使得两个模块都能从共享的特征提取中受益。同时,一些方法通过使用历史 LiDAR 扫描作为辅助监督来增加语义标签的密度。尽管这些方法提高了模型捕获细粒度语义的能力,但依赖历史扫描增加了计算开销,使得这些解决方案难以在实时自动驾驶场景中部署。

作者的方法不同,将 SS 作为预训练任务来学习 SSC 的元知识。预训练步骤帮助模型更好地泛化于不同域,准备处理真实世界的复杂性,如遮挡和传感器噪声。为了进一步增强监督,作者从附近的 CAV 聚合语义信息,提供更密集的标签,扩展到更大的距离。这种从多辆车聚合的语义信息解决了单个传感器的局限性,后者通常受到数据稀疏和遮挡的限制。它允许模型更有效地推理不完整的区域,从而获得更全面的场景理解。

问题表述

作者将 3D SSC 问题定义如下: 给定一个稀疏的 3D 体素网格 , 其中 分别表示驾驶场景的高度、宽度和深度。每个体素 中可以是 0 或 1 , 表示物体的占用情况, 其中 是体素索引。3D SSC 的目标是学习一个模型 , 为 中的每个 分配一个语义标签,得到 ,其中 是对应位置的标签。这些标签属于集合 ,其中 是语义类别的数量, 表示一个自由标签。

双相训练策略

基于 MAML,作者提出的方法,MetaSSC的工作流程如图 3 所示,包括两个主要阶段:元预训练和适应。这些阶段使得 SSC-MDM 模型能够将知识从模拟环境转移到真实世界驾驶场景,提高 3D SSC 任务的性能。

元预训练阶段(图 3-部分 A)旨在通过从模拟数据中学习,为跨不同任务的泛化做准备。源数据集 OPV2V 和 V2XSIM 提供了一系列 V2V 和 V2X 场景,帮助模型为动态环境开发鲁棒特征。任务从这些数据集中采样,每个任务包括一个支持集和一个查询集。支持集用于内循环中优化任务特定的参数,而查询集评估模型的泛化性能。

元学习器用一组参数 初始化 SSC-MDM 主干, 这些参数被分配给每个任务。给定 个任务 从源数据集 , 对于每个任务 , 支持集 在内循环中使用,其中执行多个 k 步梯度下降。这些小步更新使模型能够快速适应任务特定的特征,提高其处理复杂场景的能力。在每一步中, 应用数据增强(Aug)来增强学习特征的鲁棒性和泛化能力。

具体元预训练的过程可以详见 Algorithm1:

在适应阶段(图 3-部分 B),元训练的 SSC MDM 模型被适应到目标真实世界数据集,SemanticKITTI。这个阶段微调元学习参数,使其与真实世界条件对齐,解决诸如传感器噪声、遮挡和环境变异性等挑战。允许模型以多种分辨率(1:1、1:2、1:4 和 1:8)生成输出,使其能够捕获驾驶环境的细节和大规模特征。

多尺度输出对于平衡局部精度和全局场景理解至关重要。例如,像行人这样的小物体在更细的尺度上被检测,而像道路和建筑物这样的大物体在更粗的分辨率上被识别。这种分层输出结构确保了模型即使在具有挑战性的真实世界场景中也能提供准确和全面的场景补全。

适应阶段利用元学习参数作为一个强大的起点,最小化了对广泛重新训练的需求。这种高效的迁移学习框架加速了 SSC-MDM 模型在真实世界设置中的部署,确保了高性能和最小的计算开销。适应阶段的过程被作者总结进 Algorithm2中:

D-LKA-M 架构

D-LKA-M 架构如图 4 所示,源自 D-LKA 网络,集成了 Mamba 块,有效地处理 3D 块的长序列建模。该设计遵循与 LMSCNet 类似的层次结构,类似于 U-Net 架构。层次结构使模型能够进行多尺度处理,允许模型捕获来自 3D 场景的细粒度细节和更广泛的上下文信息。

模型通过一系列 3D 模块处理输入数据,不同阶段进行下采样和上采样操作。每个下采样层减少空间维度,压缩输入同时保留关键信息,每个上采样层重建更高分辨率的输出。这种结构使其能够以多种降低的分辨率输出结果。这在 SSC 任务中特别有用,因为它在多个尺度上提供预测,提高了 SSC 的准确性。

在输入阶段使用 Patch 嵌入模块将原始 3D 数据划分为可管理的部分。嵌入在 D-LKA 模块中的 Mamba 块增强了网络对 3D 体素网格长距离依赖关系的建模能力,这对于理解复杂驾驶环境至关重要。这种集成确保了模型在计算效率和准确性之间取得平衡,使其适合实时应用。

可变形卷积

可变形卷积引入了一个偏移场来自适应调整卷积核,这在自动驾驶中特别重要,因为行人、车辆和障碍物等对象通常不符合固定形状或位置。传统的固定核卷积难以有效捕获这种不规则性,限制了模型准确感知复杂驾驶环境的能力。可变形卷积通过动态修改每个输入位置的感受野来解决这个问题。该机制可以总结如下:

其中 表示可变形注意力机制, 表示层归一化。

在可变形注意力中, 对于输入特征图 中的任何位置 , 学习到的偏移 被添加到感受野中,定义为 。这种机制允许模型动态转移其焦点, 超出固定空间区域。这里, 枚举了规则体素网格中的位置。在位置 的可变形卷积输出由以下给出:

由于偏移 通常是分数, 需要插值来计算非整位置的特征值。位置 处的插值值计算如下:

总之,可变形卷积为自动驾驶提供了显著优势,通过提高模型对复杂场景的理解能力,这对于构建在真实世界环境中安全可靠的自动驾驶系统至关重要。

大核注意力

大核注意力(LKA)引入了一种新的方法来有效地捕获局部和全局上下文信息。与传统卷积不同,传统卷积难以平衡局部细节和大感受野,LKA将大 核卷积分解为多个阶段,每个阶段设计用于处理特征提取的不同方面,同时保持计算效率。具体来说,大核卷积被分解为 深度可分离膨胀卷积, 膨胀率为 深度可分离卷积, 以及一个 通道卷积。

这种分解不仅以线性复杂度实现了大感受野,还提供了动态处理能力,使其非常适合于自动驾驶中的 3D SSC 等复杂任务。LKA 的数学公式可以表示为:

其中 是输入特征, 表示深度可分离卷积, 表示深度可分离膨胀卷积, 是通道卷积。LKA 的最终输出是通过注意力权重 和输入特征 之间的逐元素乘积获得的:







请到「今天看啥」查看全文