专栏名称: 自动驾驶之心

自动驾驶开发者社区，关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等，坚持为领域输出最前沿的技术方向！

BEV进入定制化时代！清华Hierarchical BEV：创新多模块学习框架，无痛落地无缝量产！

自动驾驶之心 · 公众号 · · 2024-07-31 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 清华大学最新的工作—Hierarchical and Decoupled BEV！ 全新BEV感知范式，解决感知算法开发过程中存在开发周期长、可复用性差、传感器设置复杂等问题。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『 BEV感知』 技术交流群

论文作者 | Yuqi Dai等

编辑 | 自动驾驶之心

论文思路

自动驾驶指通过传感器计算设备、信息通信、自动控制和人工智能的集成，将车辆转变为能够自我导航的实体。环境感知系统是智能车辆获取外部信息的通道，它的任务是收集、处理和分析与车辆周围环境有关的数据，作为自动驾驶的先决条件。感知系统作为智能驾驶技术的关键要素，为后续模块如定位、预测、决策、规划、控制等提供必要的输入数据。目前，大多数用于车辆实现的感知算法都是基于深度学习实现的，特别是神经网络，这些算法在带有标签的公共数据集上进行训练，并部署在一系列视觉感知任务中。为了解决感知算法开发过程中存在开发周期长、可复用性差、传感器设置复杂等问题，论文提出了一种新的分层感知范式，旨在提供一个基本感知模块库和用户友好的图形界面，从而能够快速构建定制模型。

挑战及主要贡献

挑战

算法在不同和动态设置中的 可泛化性 ：在一种情况下表现出色的模型可能在另一种情况下表现不佳，这强调了适应性强、效率高的感知系统的必要性；
开发智能感知算法的传统过程受到 长周期 和 缺乏模块化 的阻碍：这导致了组件的低可重用性，复杂的配置，增加了工程工作中的冗余，增加了开发成本；
在部署过程中缺乏系统的方法来利用 公共功能模块 ，使得大规模生产感知系统的优化变得复杂，阻碍了对特定任务需求的有效适应。

主要贡献

为了应对上述的这些挑战，论文中引入了一种分层感知方案，设计了一个综合框架来简化自动驾驶汽车感知算法的开发。通过将基本算法组件组织到一个功能模块库中，所提出的感知方案使汽车工程师能够以更高的效率构建和定制满足特定操作需求的感知模型。该方案根据感知模型的功能角色对其进行分类，每个模块提供网络结构的选择，这种设计不仅有利于与各种平台的计算能力保持一致，而且简化了对自定义数据集的适应，从而提高了开发效率。这些标准化功能模块的可复用性大大减少了重复的工作，从而缩短了开发时间。另外，考虑到智能汽车平台的快速发展和对快速功能更新的需求，该模块化感知系统具有固有的可扩展性。它允许开发人员轻松地引入新模块或改进现有模块，确保系统的发展响应新出现的需求和技术进步。

为了提高开发效率，论文还提出了一种将预训练与微调相结合的范式。通过利用开源数据集，建立一个性能良好的模型的多样化存储库，这些预训练模型提供了一个坚实的基础，使得在微调阶段需要更少的训练数据和更少的迭代。这种方法使用户能够适应功能和调整参数以匹配自定义数据集，而后通过迁移学习和领域适应等技术在现实场景中实现最佳性能。具体来说，预训练方案包括对每个潜在模块组合进行详尽的训练，以确保每个感知模块被赋予与上游和下游功能对应的兼容权重。一旦建立了感知功能模块库，那就在预训练阶段引入了一种新的多模块学习范式。是针对分层解耦的感知系统设计的，它提高了整体的训练效率，并且可以同时优化多种模型架构以获得性能提升。在后续的研究中，框架已经证明了其有效性。主要贡献可以概括如下:

介绍了一个分层感知系统，提供了一个基本组件库和图形界面，以简化开发过程。用户可以通过拖放操作建立自己的感知模型；
部署范式，以促进快速部署和增强感知算法的可泛化性；
提出了一个创新的多模块学习框架，该框架表明多个模块的联合训练可以提高单个任务的性能并增强模型的鲁棒性。

模型架构：自动驾驶感知集成方案

分层感知范式

论文中提出的分层感知系统的技术细节如图1所示。其核心创新在于提供了一个模块化且易于操作的感知算法构建过程视图，该过程分别通过集成功能模块组件的预训练算法和微调算法来实现。如表1所示，在集成车辆-云端-道路架构的背景下，封装了一套39个通用感知功能模块来表示概念分类。车辆-云端-道路集成感知系统以单个车辆智能感知为基础，主要包括车辆之间、车辆与基础设施之间的协同感知。为了构建数字感知功能模块库，采用多模块集成的知识共享训练方法。首先，在庞大的公共数据集上预训练感知功能模块的各种组合，从而创建模块化组件的存储库。随后，设计一个用户友好的图形化软件界面，通过直观的拖放操作来促进模型的构建。这种图形化软件可以轻松地组装感知模型，为训练、推理和微调提供统一的界面。

以视觉为中心的三维物体检测的原型设计

为了实现表1中描述的设计方案，采用了分阶段迭代的方法。分阶段的实施步骤基于三个关键要素：传感器、感知目标和感知功能。分层三维目标检测方法具有模块化结构，集成了一套专用组件。首先采用图像视图特征提取器对视觉特征进行有效捕获和编码；随后，使用视图转换器将这些编码特征从透视图转换为鸟瞰图，利用时间特征融合模块整合时间信息得到进一步增强特征表示。最后，使用一个特定的检测头在视角下完成目标检测任务。

1）特征提取

图像特征提取模块的主要功能是从输入图像中分别提取低级和高级视觉特征，形成一个通用的视觉表示。为了解决平台的不同计算能力，论文中选择了两种具有不同参数计数和架构复杂性的骨干网络：和。的参数量约为2560万，计算负载约为，非常适合具有中间层计算资源的平台。其更深层的架构，配备了复杂的瓶颈模块，在性能和效率之间取得了不错的平衡，满足了广泛的应用需求。相比之下，是一个密集连接的骨干网络，其设计目标是在不牺牲性能的情况下提高内存效率和推理速度，它的参数量约为1.08亿个，是计算资源丰富的高性能场景的可靠选择。

默认情况下，特征金字塔网络输出的多尺度特征符合1/16、1/32和1/64的尺度，通道维数。

2）图像视图转换

图像视图转换模块包含两种不同复杂性的基于转换器的方法：空间交叉注意和几何引导的核转换器，两者都是基于的方法，以数据驱动的方式对透视图转换建模。视图变换模块的输入由透视视图中图像特征提取模块输出的多尺度图像特征组成。机制旨在通过跨空间注意力机制来集成透视图和特性，它从不同角度捕捉特征之间的相互关系，从而提高了特征转换的精度。首先，将透视特征和初步变换后的特征线性映射到统一的特征空间中；然后计算注意力权重，指示不同位置的特征之间的相关性；最后利用这些权重对特征进行加权求和，实现特征融合。相反，模块通过将几何变换与深度学习模型相结合来优化特征变换过程，从而提高了计算效率。该模块自适应调整卷积核以适应不同的几何结构，提高了特征变换的精度。简单的几何信息，如深度图和相机参数，最初被用来生成几何引导的卷积核，这些核可以动态调整，以更好地捕捉特征中的空间关系。对于由地面高度点组成的查询，通过相机的内外参确定对应的透视图像坐标，然后提取附近的核区域特征并进行交叉关注以产生特征。

3）时间特征融合:

来自历史的时间线索为自动驾驶中的感知提供了额外的信息。时间特征融合模块用于整合图像的时间特征，增强对动态环境的理解。通过提取和合并时间信息，该模块提高了模型对运动物体动态的理解，克服了单帧感知约束，扩大了感受野，减轻了物体检测和目标遮挡等抖动问题，从而提高了精度和一致性。时间特征融合的过程包括三个关键步骤：首先，对前一帧的选择过程确定融合的时间范围。模块从当前帧之前的四帧中随机选择三帧，它们共同代表两秒的间隔。初始帧因为没有先前的帧进行比较，则与自身的副本融合在一起。这个过程需要对每个迭代进行四次向前传递和一次向后传递。直接从缓存中检索前一帧的BEV特征，以保持推理效率；其次，根据自我运动调整前帧的特征，使其与当前帧的特征在统一的坐标系内对齐，从而实现时空对齐。这种对齐对于精确的特征集成至关重要。由于前一帧和当前帧的特征都是在各自的自我-车辆坐标系中定义的，因此必须转换前一帧的特征坐标来和当前帧的特征坐标相对应；最后一步是时间信息的整合：如图2所示，在分层3D目标检测器中集成了两种模块:时间自注意模块和循环拼接融合模块。

模块通过对每个特征应用可变形注意力，将之前和当前的特征在空间和时间上对齐，然后在平面上进行算术平均融合；而模块是基于级联操作和线性层的组合设计的，以一种跨时间维度综合信息的方式融合了对齐的先前和当前特征。

4）检测头：

论文中以为基准，采用基于的改进三维检测头，得到最终的预测结果。检测头由6层解码器组成，即交错排列的自注意层和交叉注意层。通过利用单尺度特征作为输入，解码器能够以端到端方式预测边界框和速度，从而消除了后处理的需要。

多模块学习框架

预训练方案包括对每个潜在模块组合进行详尽的训练，确保每个感知模块被赋予与上游和下游功能对应的兼容权重。针对层次解耦的感知系统，方法在核心目标上不同于多任务学习范式。的主要目的是通过联合学习来提高个体任务的表现。相反，框架是由开发一个通用模型库为目标驱动的。通过使用，可以同时训练不同的模型体系结构以获得性能改进。该方法不仅适用于单任务学习情境，也可扩展到多任务学习情境。为了全面地描述，首先需要了解MML的定义。

定义如下：给定个功能模块，其中所有模块或其中的一个子集是相关的，而多模块学习的目的是通过使用所有模型集成中包含的知识来共同学习个模块，以提高模型对共同任务的学习能力。

论文中提出了面向功能模块集成和跨不同模型的通用模块权值收敛的。首先，对复合模型的整个谱进行独立训练，得到每个模型各自的权重参数；然后，在每个训练单元结束时，执行参数融合和跨模型的同源模块权值更新。该策略旨在促进模型间的信息交换，从而增强模型吸收不变特征的能力。在随后的训练迭代中部署合并的权重，使这个循环持续下去，直到达到预定的训练周期阈值。如图3所示，以组合为例详细介绍了所提出的多模块预训练过程。训练流程描述如下：最初，对每个不同的组合模型执行一个单独的小训练会话，该大小为3。在这个初始训练阶段之后，执行参数融合，并更新所有模型共有的模块的权重。随后，进行进一步的训练迭代以实现优化。这个过程的目的是一旦达到预先设定的最大训练次数就结束。在实验中，这个最大值被设置为8轮。因此，这个迭代过程在八个周期中反复进行，最终得出最终的功能模块权重。

通过采用软参数共享的方法，提供了一种更加灵活的多模型学习体系结构。在软参数共享的框架下，每个模型都有自己独立的结构和一组排他的参数，而不是直接共享很大一部分网络层。这种设计考虑到不同的任务可能需要学习不同的特征表示，因此，赋予每个模型一定程度的排他性能力有助于提高整体性能。然而，为了实现知识迁移和促进通用表示的学习，软参数共享并没有完全隔离每个任务的模型参数。相反，它通过施加一定的约束，促使不同任务的模型参数趋于相似，从而在一定程度上实现参数共享。

在以视觉为中心的物体检测的背景下，将整个感知模型分为四部分，计算模型的总组合次数为。其中表示某部分所包含的模块数。一个功能模块可以表示为，其中表示输入数据，表示权重值。那么，柔性功能模块化装配方法可以表示为，它可以用以下四个分量表示:

其中表示不同的功能模块，表示输入到不同模块的特征。如算法1所示，在模块化组装阶段，对一个小单元训练的所有个权值进行迭代，如果权值包含相应的功能模块权值，则将其保存并与包含相同功能模块的所有权值平均。

其中表示含有某一模块的模型数，表示装配后的权重。

实验

实现细节

数据集和指标 数据集是一个多模式自动驾驶数据集，提供了丰富的传感器数据，包括32个摄像头、5个雷达、16个激光雷达、和数据。检测基准，由1000个多模态视频组成，每个视频延长约20秒，关键帧以的间隔捕获。这种设置确保了一个完整的360度的视野，图像数据从六个相机中获取。每个样本由来自前、前左、前右、后左、后右和后方向的6个摄像头的图像组成。数据集被精心划分为700个视频用于训练，150个用于验证，150个用于测试。对于检测任务，有来自10个类别的18538个带注释的边界框。实验中使用官方的评估标准进行评估。的平均精度( )是利用地平面上的中心距离而不是三维交并比( )来计算，以匹配预测结果和地面真实值。度量还包含5种真值度量( 度量)，包括、、、和，分别用于度量平移、尺度、方向、速度和属性误差。还定义了检测分数(N S)来评估检测任务的各个指标综合情况。

训练的细节 实验是通过实现和进行，相应的代码在4块内存为、批处理大小为4的上执行。初始学习率设置为进行训练，并在训练过程中使用余弦策略动态更新学习率。在预训练阶段，除了模型参数外，所有的超参数和设置都按照的参数进行设置。3D目标检测模型采用了两种骨干架构：，用检查点的权重初始化；，检查点的权重初始化。在微调阶段，使用所有预训练的权值初始化目标检测模型。

比较结果

为了证明论文设计的方法的有效性和泛化性，实验利用对所有8个复合模式模型进行预训练，如表2所示。从验证数据集中随机抽取样本作为微调数据。表3说明了方法在物体检测环境中应用于各种集成模型时所取得的性能改进。所有模型都在训练数据集上进行了由24个组成的预训练阶段，然后在10%的验证数据集上进行了另外24个的微调阶段。结果表明，在所有测试的集成模型中，的应用导致和的一致性改进。图4通过数据直方图将对比实验结果进一步可视化。图5给出了各模型的基线性能、应用方法后的性能和改善情况(分别用和表示)。

从图4可以看出，模型的改善最为显著，为2.9%，