专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

加州大学开源 SAD | 脉冲式自动驾驶，一种节能高效的自动驾驶解决方案！

智驾实验室 · 公众号 · · 2024-06-14 16:44

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

自动驾驶需要一个综合方法，包括感知、预测和规划，同时在严格的能源约束下运行以增强可扩展性和环境可持续性。

作者提出了脉冲式自动驾驶（SAD），这是第一个统一的脉冲神经网络（SNN），通过其事件驱动和能效性质来解决自动驾驶系统面临的能源挑战。

SAD是端到端训练的，包括三个主要模块：感知模块，处理来自多视角摄像机的输入以构建时空鸟瞰图；预测模块，利用具有脉冲神经元的创新双路径来预测未来状态；规划模块，生成考虑预测占用、交通规则和乘坐舒适性的安全轨迹。

在nuScenes数据集上进行评估，SAD在感知、预测和规划任务中取得了具有竞争力的性能，同时利用了SNN的能效。

这项工作突显了神经形态计算应用于能效自动驾驶的潜力，这是向可持续和安全关键的汽车技术迈出的关键一步。

作者的代码可在https://github.com/ridgerchu/SAD获取。

1 Introduction

自动驾驶技术被认为是计算机视觉领域的“圣杯”，它集成了诸如感知、预测和规划等复杂过程，以达到SAE J3016标准[1]所分类的更高车辆自动化水平。许多新型车辆现在具备二级自动驾驶能力，向三级自动驾驶的过渡标志着显著的发展。然而，这些系统必须遵守50-60 W/h[2]的能量限制，并面临日益增加的环境问题。Sudhakar等人强调，为了将自动驾驶车辆的2050年排放量保持在2018年数据中心水平以下，硬件效率需要每1.1年翻一番[3]。

脉冲神经网络（SNNs）通过使用稀疏、事件驱动、单比特的脉冲激活进行神经元间的通信，模仿生物神经元[4; 5; 6; 7]，为能效智能提供了一种有前景的解决方案。当在类神经形态硬件上处理这些工作负载时，可以通过异步、细粒度处理来加速低延迟和低能耗。就像大脑中一样，脉冲被认为是在时间上编码信息，并在各种工作负载中，将基于序列的计算机视觉任务的能效提高了几个数量级[9; 10; 11]。

在过去的几年中，SNNs在包括图像分类、目标检测、语义分割、低级图像重建和语言建模在内的各种任务中迅速提高了性能，其中大部分工作集中在计算机视觉上。这些进展使得SNN在基础计算机视觉任务中的性能接近人工神经网络（ANNs）。尽管取得了这些进展，SNNs尚未在涉及多个子任务的复杂现实世界计算机视觉应用中证明其有效性。

作者介绍了首个为端到端自动驾驶设计的SNN，将感知、预测和规划集成到单一模型中。为了实现这一SNN的里程碑，作者涉及了视觉嵌入的时空融合以增强感知、概率性未来建模以实现准确预测，以及一个高性能的时序混合脉冲递归单元，它有效地将安全和舒适性考虑因素融入到高级规划决策中。

通过利用SNN的事件驱动和能效属性，作者的模型处理视觉输入、预测未来状态并计算自动驾驶车辆的最终轨迹。此前，在时空视觉任务中使用了GRUs或3D卷积，尽管这些运算符已完全被用于时间混合的脉冲神经元所取代。

这项工作在神经形态计算方面标志着显著的进步，证明了SNN处理低功耗自动驾驶复杂要求的潜力。作者的实验表明，基于SNN的系统在与传统深度学习方法竞争的同时，提供了更高的能效和更低的延迟。

2 Related Works

在自主系统中的脉冲神经网络 对于低功耗、边缘智能应用特别有效，它结合了深度学习和神经科学原理来提高操作效率。许多类神经形态的自主系统使用SNNs作为比例-微分-积分（PID）控制器来适应不断变化的环境，例如在无人机中不同的有效载荷，或者防止非中性浮力飞艇漂移[40]。这些工作中的大部分已成功在神经形态硬件上部署了SNN作为实际系统中的PID控制器，突显了低功耗自主控制的潜力。从天空转移到地面，基于SNN的PID控制器已用于在提供车道轨迹的模拟环境中保持车道，以及使用激光雷达在模拟环境中避免碰撞[44]。这些任务都显示了SNN在自适应控制中的成功应用，尽管PID控制器的目标是维持一个期望的设定点，这通常是一个定义良好的、比在复杂和嘈杂环境中端到端自主驾驶的目标简单的目标。在本文中，作者将推动SNN的能力边界。

图1：SAD如何实现从视觉到规划的自主驾驶：系统处理来自六个摄像头的跨多个帧的输入。感知模块编码与当前输入帧（）相关的特征信息，预测模块使用序列信息（）预测下一帧的特征信息，而模型输出生成转向和加速度计划。这个过程创建了一个鸟瞰图（BEV）和导航轨迹计划。

端到端自主驾驶 使用单一、完全可微分的模型将感官输入直接映射到车辆控制输出。现有方法可以大致分为两类：模仿学习和强化学习范式[45]。模仿学习方法，如行为克隆和逆最优控制，通过模仿专家演示来学习驾驶策略。另一方面，强化学习技术使驾驶代理能够通过与环境的互动来学习，通过优化奖励函数。最近的进展，如多模态传感器融合、注意力机制和政策提炼显著提高了端到端驾驶系统的性能。

3 方法

本节介绍了脉冲自主驾驶（SAD）方法，这是一个端到端的框架，它使用SNN整合了感知、预测和规划（图2）。SAD的生物启发架构使高效的时空处理成为可能，以适应自主驾驶的动态特性，其核心是脉冲神经元层。这一层融合了时空信息，并使脉冲驱动的计算成为可能，使其非常适合自主驾驶任务的动态特性。

感知模块是SAD框架的第一个阶段。它从多视角摄像头输入构建鸟瞰图（BEV）表示，为环境提供了人类可解释的理解。这个表示作为后续预测和规划模块的基础。预测模块使用BEV来预测未来状态，采用“双路径”方法，允许数据流经两条独立的路径，提供一对替代数据嵌入。一条路径专注于编码过去的信息，而另一条路径专门预测未来的信息。

随后，这两个路径的嵌入被融合在一起，整合过去和未来的信息以促进时间混合。这使得可以预期环境中的动态变化，这对于安全和高效的自主驾驶至关重要。利用感知和预测的结果，规划模块通过考虑车辆周围空间的预测占用、交通规则和乘坐舒适性来生成安全轨迹。为了优化整个流程，SAD使用组合损失进行端到端训练，该损失结合了来自感知、预测和规划的目标。以下小节将详细描述每个模块。

Spiking Neuron Layer

所有模块由脉冲神经元而非人工神经元组成，下面提供了脉冲神经元的正式定义。脉冲神经元层将时空信息整合到每个神经元的隐藏状态（膜电位）中，这些隐藏状态被转化为向下一层发射的二进制脉冲。脉冲神经元可以被表示为具有二值激活和对角循环权重矩阵的循环神经元，这样神经元的隐藏状态与其他所有神经元隔离（详见[5]的推导）。作者采用标准的泄漏积分发射（LIF）[7]模型，其动态由以下方程描述：

(2)

图2：SAD概述。来自感知编码器的多视角特征，包括带有倒置瓶颈的脉冲ResNet和脉冲DeepLab Head ，被馈送到使用脉冲神经元的预测模块中。感知解码器随后生成车道分隔线、行人、车辆和可行驶区域的预测。最后，规划模块对场景进行建模并生成未来预测，以指导基于规则的指令决策，如转弯、停车和目标导向导航。

其中是在时间步的神经元输入，通常由卷积或密集运算生成。表示神经元的膜电位，它整合了和时间输入分量。是Heaviside阶跃函数，当时为1，否则为0。如果超过发射阈值，脉冲神经元发出一个脉冲作为其激活，并且时间输出重置为。否则，不发出脉冲（）并且以衰减因子衰减到。为了简洁起见，作者将方程式2称为，其中输入是输入到多个脉冲神经元的膜电位值的张量，输出是形状相同的脉冲张量。

感知：编码器和解码器的不同时间策略

图3展示了感知模块的整体架构。感知阶段通过空间和时间特征的融合，从多视角摄像机输入在时间步内构建一个时空鸟瞰表示。它包括一个编码器，处理每个摄像机输入以生成特征和深度估计，以及一个解码器，生成鸟瞰分割并指导规划模块。图3的编码器和解码器之间展示了一个未来预测模块。在第一阶段，当仅训练感知模块时，不使用预测模块，但在第二阶段一旦包括预测模块，它就会被包含在内。

在编码器/解码器架构中的时间维度处理是一个关键的设计考量，因为SNN和自动驾驶数据本质上都具有时间结构。有两种方法来处理这个问题：

顺序对齐（SA）： 顺序输入数据逐步传递给SNN，通过将输入数据的时间变化维度与模型对齐。
序列重复（SR）： 为了在训练期间获得更好的并行性，将顺序输入数据与批处理维度对齐，并且将各个帧在模型序列中重复次，以创建虚拟时间步。SR通常用于在静态图像数据集上对基于序列的模型进行预训练。

在给定的这两种编码选项中，作者对感知块中的编码器和解码器应用了这四种选项的所有组合进行了测试。基于作者的实验（详细内容见第4.3.1节），表现最好的方法是编码器使用序列重复（SR），解码器使用自注意力（SA）。编码器还在ImageNet-1K上进行了预训练，这需要使用重复的图像来创建虚拟时间步。关于编码器预训练的更多细节可以在附录B.1中找到。相反，解码器是从零开始训练的，它自然承担起时间混合的角色，使得将序列数据与模型序列对齐的方法更加有效。

训练过程首先训练编码器-解码器，然后是预测模块。这种方法在自动驾驶车辆感知和规划中综合了空间和时间信息，以实现全面的鸟瞰表示。

编码器：与序列重复拼接的标记混合器编码器模块可以被视为一个脉冲标记混合器（STM）。STM由12层在ImageNet-1K [70]上预训练的脉冲CNN组成，用于生成视觉 Patch 嵌入，这实际上是参考文献[13, 14]中的“脉冲 Patch 嵌入”的更深层版本。在这12层中，每一层的通道数量被设计为先增加后减少，以此作为倒置瓶颈。虽然SPS层通常以自注意力结束，但作者用密集层代替，这既减少了计算资源，又提高了性能。通过这种方式，作者只用1.2亿个参数就达到了72.1%的ImageNet top-1分类准确率。相比之下，之前采用自注意力的脉冲视觉 Transformer 在相同数量的参数下达到了70.2% [13]。编码器在将图像压缩到更小的潜在空间时提取特征嵌入和深度估计。编码器的工作流程可以总结如下：

上述STM编码器用于从每个摄像头帧中提取特征嵌入和深度估计，其中是摄像头的数量，指的是输入通道的数量（RGB），指的是视频分辨率。请注意，序列重复的使用意味着是同一帧在序列中重复的次数，而是连续摄像头记录中的帧数。因此，的维度被堆叠起来以加快处理速度。

编码器由12层组成，每层包含一个2D卷积层、批量归一化和脉冲神经元。编码器的输出是一个特征图和一个深度估计，其中是特征通道的数量，是每个通道与深度相关的数量，是空间大小。正式地，给定一个图像序列：

其中 Conv2d 表示一个2D卷积层（步长：1，卷积核大小），是批量归一化，是脉冲神经元。然后，特征图和深度估计在序列上取平均值，并通过外积组合以获得一个相机特征视锥：

所有相机的视锥被转换到以 ego-vehicle 的惯性中心为中心的全局3D坐标系中，时间为。之前的鸟瞰（BEV）特征图通过应用折扣因子与当前的BEV合并，以有效地整合这些层。

其中是时间的BEV，初始条件为，折扣因子为。然后作者在维度上取平均值以消除重复的时间维度，并获得平均发射率。得到的特征图随后传递给解码器。

解码器：与流式特征图的顺序对齐递归解码器按顺序对齐特征图，在每个时间步引入一个新的数据实例，这与编码器的重复输入形成对比。解码器使用SA而不是SR可以提高性能，有两个原因：1) 解码器不需要在静态、重复的数据上进行预训练，2) 解码器充当时间混合器。在这种架构中，时间混合是通过使用LIF神经元实现的，并允许它们承担自注意力机制的角色，而无需相同的计算负担。LIF神经元组成一个共享的主干，作为一组用于从数据中提取特征的层，然后传递到各种专门的 Head ，每个 Head 都致力于一个特定的任务。高级数据流总结如下：

其中是解码器的输入张量，维度为，是共享 Backbone 网络的输出，维度为，是第个头的输出，维度为，且指向不同任务的头：车辆分割（seg）、行人（ped）、高清地图（map）和未来实例（inst）。共享 Backbone 网络采用 MS-ResNet18 [71] 的前三层，然后是放大因子为 2 的三层上采样层和跳跃连接。关于MS-ResNet的更多细节可以在附录A中找到。得到的特征具有64个通道，然后根据任务要求传递到不同的头。每个头由一个脉冲卷积层组成。

Prediction: Fusing Parallel Spike Streams

预测未来智能体行为对于自动驾驶车辆来说至关重要，这样车辆才能实时做出反应和明智的决策。在作者的方法中，作者积累了历史的鸟瞰图（BEV）特征，并仅使用LIF神经元来预测接下来的几个时间步。然而，智能体、交通元素和道路条件之间的相互作用具有随机性，这使得准确预测未来轨迹变得具有挑战性。为了解决这个问题，作者用条件高斯分布来建模未来的不确定性。

为此，作者使用了两层LIF神经元。第一层并行层接收来自感知模型编码器的当前和先前输出的BEV特征图作为输入（）。第一个BEV 也用作这个LIF层的初始膜电位。第二层并行层考虑未来BEV预测的不确定性分布。不确定性分布是通过将当前特征传递通过4个脉冲MS-ResNet块、平均池化，并通过另一个2D脉冲卷积（核大小为）将通道深度转换为第一并行层输出的两倍来生成的。另一个平均池化操作将特征图压缩为向量。该向量被分为两个子向量，分别代表均值和方差，这些值填充了潜在特征图的对角高斯分布。使用和标准差，作者可以构建时间步的高斯分布，记作。这个由参数和表示的分布，然后可以与当前时间步的输入连接。

同时，所有先前的脉冲输出都与当前的输入连接，如下所示。下一个时间步的预测BEV特征计算如下：

其中表示下一个时间步的预测BEV特征，表示LIF神经元层，表示连接操作，表示来自两个LIF层的输出的逐元素相加，内部的和层用于确保第一和第二LIF层输出维度的一致性。混合预测作为后续预测步骤的基础。通过递归应用这种双路径预测方法，作者获得了预测的未来状态。整体数据路径如图4所示。在双路径预测之后，所有特征都输入到使用SA进行额外时间混合的脉冲ResNet中。历史特征和预测的未来特征