专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

用于交通物体分割的CLFT模型，借视觉Transformer融合多源数据，应对多样场景 !

智驾实验室 · 公众号 · · 2025-02-26 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

本文提出了一种用于交通物体分割的Camera-LiDAR融合Transformer（CLFT）模型，该模型利用视觉Transformer融合摄像头和激光雷达数据。

基于利用自注意力机制的视觉Transformer方法，作者扩展了分割能力，并增加了额外的分类选项，以应对包括自行车骑行者、交通标志和行人等多样化物体类别，以及各种天气条件。

尽管模型表现良好，但在恶劣条件下仍面临挑战，这突显了进一步优化以提升在黑暗和雨天的性能的必要性。

总之，CLFT模型为自动驾驶感知提供了一个有吸引力的解决方案，推动了多模态融合和物体分割领域的最新进展，同时需要持续努力来解决现有局限，并充分发挥其在实际部署中的潜力。

1. 引言

本研究扩展了作者之前关于相机激光雷达融合 Transformer （CLFT）（Gu等人，2024年）的工作，该研究采用了 Transformer 网络中的编码器-解码器结构，但使用了一种新颖的渐进式视觉 Transformer 组装策略。作者详细阐述了CLFT方法，并在分割的基础上增加了额外的分类选项。作者的目标是利用相机和激光雷达数据的融合，超越现有的卷积神经网络和视觉 Transformer 模型。

Transformer （Vaswani等人，2023年）最初是为语言模型引入的，它依赖于一种称为自注意力的机制来处理输入数据片段。这使得模型能够同时全局权衡输入数据不同部分的重要性，从而提高计算效率。由于 Transformer 不包含关于输入 Token 顺序的信息，因此会添加位置编码到输入嵌入中，以保留在语言翻译和图像识别等任务中至关重要的信息。

视觉Transformer（ViT）（Dosovitskiy等人，2021年）通过将图像划分为块并将每个块视为一个 Token ，将Transformer架构应用于图像数据，这使得模型能够捕捉图像不同部分之间的全局上下文和关系。密集预测Transformer（DPT）（Ranftl等人，2021年）与ViT类似地处理图像块，但侧重于利用Transformer在捕捉长距离依赖和上下文信息方面的优势，生成像素 Level 的预测。作者的假设是，ViT和DPT的结合能够抓取数据中的依赖关系，从而改善对代表性较低的类别的解释，考虑到自动驾驶数据集在车辆方面存在强烈的不平衡性。

沿着这一研究方向，作者的工作主要有以下贡献：

作者对CLFT模型进行了增强，使其能够处理更广泛的交通目标，包括自行车、标志和行人。
通过广泛的测试，作者证明了与其它视觉Transformer模型相比，作者的模型在准确性和性能指标方面具有优势。
通过利用多模态传感器融合和多注意力机制的优势，CLFT模型被证明是适应多样化环境条件，包括复杂天气状况的解决方案。

2. 相关研究工作

摄像头与激光雷达数据的融合是多模态融合领域广泛研究的话题，其在目标检测和分割方面有广泛应用。多年来，提出了各种技术来解决这些问题，（Cui等人，2022年）提出了以下分类选项：信号级、特征级、结果级和多级融合。信号级融合依赖于原始传感器数据，虽然它适用于深度补全（Cheng等人，2019年）（Lin等人，2022年）和地标检测（Lee和Park，2021年）（Caltagirone等人，2018年），但它仍然遭受纹理信息损失的问题。通过 Voxel 网格或二维投影来表示激光雷达数据作为特征图，例如，VoxelNet（Zhou和Tuzel，2017年）的实现使用原始点云作为 Voxel ，在将激光雷达数据与摄像头像素融合之前。结果级融合通过合并不同模型输出的预测结果来提高准确性（Jaritz等人，2020年）（Gu等人，2018年）。通过回顾文献，可以发现最近的趋势是转向多级融合，它代表了所有其他融合策略的组合。通过将三维激光雷达数据降维到二维图像来利用现有的图像处理方法，解决了由此产生的计算复杂性。作者的工作在解码器层中使用了基于transformer的网络，以交叉融合策略整合摄像头和激光雷达数据。

在(Vaswani等人，2023)的Transformer架构中引入的注意力机制在多个领域产生了巨大影响，尤其是在自然语言处理(Xiao和Zhu，2023)和计算机视觉领域。一个显著的变体是视觉Transformer（ViT）（Dosovitskiy等人，2021），它通过处理全局上下文和长距离依赖关系，在自动驾驶任务中表现出色。在二维平面上感知周围区域主要涉及从摄像头图像中提取信息，其中像(Zhu等人，2024)中提出的鸟瞰视点Transformer进行路面分割等作品值得关注。其他最近的方法包括用于车道线预测和结合语义和实例分割的轻量级Transformer（Lai-Dang，2024）。三维自动驾驶感知是一个广泛研究的主题，主要关注目标检测和分割。在(Wang等人，2021)的DETR3D中，作者提出了一种多摄像头目标检测方法，与依赖单目图像的其他方法不同，它从图像中提取2D特征，并使用3D物体 Query 通过相机变换矩阵将特征链接到3D位置。FUTR3D（Chen等人，2023）采用基于 Query 的模态无关特征采样器（MAFS），并结合具有集合到集合损失的Transformer解码器进行3D检测，从而避免了使用后期融合启发式方法和后处理技巧。BEVFormer（Li等人，2022）通过时空Transformer引入空间和时间注意力层，提高了目标检测和地图分割。

近期的研究强调了相机和激光雷达数据的融合以增强感知能力。例如，CLFT模型将激光雷达点云处理为图像视图，以实现二维语义分割，填补了多模态语义目标分割的空白。

3. 方法论

在本节中，作者详细阐述了CLFT网络在数据处理过程中的结构细节，旨在为读者提供独特的视角，了解感官数据在网络中的 Stream 方式，从而有助于加深对本研究成果的理解和重现。

CLFT网络通过逐步组装来自每个模态的特征，并在最后进行跨模态融合来实现相机-LiDAR融合。形象地说，CLFT网络在处理输入的相机和LiDAR数据时具有两个并行处理方向；两种模态的集成发生在网络解码器块中的“融合”阶段。整个过程中通常分为三个步骤。第一步是预处理输入，将图像类数据嵌入到可学习的Transformer Token 中；第二步紧密遵循ViT（Dosovitskiy等人，2021年）编码器的协议来编码嵌入的 Token ；最后一步是对数据进行后处理，逐步组装和融合特征表示，以获得分割预测。这三个步骤的细节将在以下三个子节中进行描述。

3.1 嵌入

相机和激光雷达输入数据的预处理是独立且并行的。如第1节所述，作者选择了激光雷达处理策略，将点云数据投影到相机平面上，从而获得激光雷达投影图像。对于深度多模态传感器融合，从不同输入到统一模态的转变简化了网络结构并最小化了融合误差。

图1显示，嵌入模块共有四个步骤。第一步是将相机和激光雷达矩阵调整至行和列，其中代表行数，代表列数。第二步是将输入图像分割成不重叠的固定大小块。每个块的大小为像素。因此，代表一个块的 Token 维度为。在第三步，将块展平成一维嵌入向量，长度为，作为 Transformer 模型的输入 Token 。由于 Transformer 本身缺乏理解块之间空间和二维邻域结构关系的能力，作者为每个块额外添加了位置嵌入（Dosovitskiy等，2021）。额外的嵌入为网络提供了关于块在原始图像中相对空间位置的重要信息。随后，在最后一步，作者将组合的块嵌入通过具有维度的多层感知器（MLPs）进行处理，其中表示网络针对不同网络参数配置的各种特征维度。得到的矩阵是 Transformer 编码器的输入，用于进一步的学习和处理。

3.2 编码器

Transformer编码器的核心是多头自注意力（MHSA）机制（Vaswani等人，2023年），它使得网络能够根据各个片段之间的相对重要性进行加权。借助MHSA，神经网络通过计算所有片段对之间的注意力分数，有效地捕捉全局依赖和信息。此外，这些分数被用于生成片段嵌入的加权和。编码器的输出由嵌入矩阵组成，每个矩阵对应于原始图像中的一个片段。

图2展示了作者CLFT编码器的详细过程。编码器的输入是从之前的嵌入步骤得到的矩阵（参见图2(a)）。矩阵包含了图像块和位置嵌入，以及可学习的类别 Token 。的维度是，这意味着有576个块嵌入和一个额外的位置嵌入。这种方法受到了BERT分词方法的影响，它使用类似的嵌入来捕捉文本中的上下文信息（Devlin等，2019）。随后，多头矩阵被 Reshape 为，分别代表 Query （Query）、键（Key）和值（Value）矩阵。方程1显示了这一步中多头注意力的计算。

其中表示 Head 向量的横向拼接，是用于线性变换拼接输出的权重矩阵。每个 Head 都使用自己的投影矩阵单独计算，具体如下：

表示对 Query 、键和值的注意力机制。第个头的投影矩阵、和的计算方法如下：

softmax注意力机制遵循公式4：