专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

Nature正刊开源！突破低延迟自动驾驶视觉感知！

3DCV · 公众号 · · 2024-07-20 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球 ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料： 近20门视频课程(星球成员免费学习) 、 最新顶会论文 、 3D视觉最新模组 、 3DGS系列(视频+文档) 、 计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

基于帧的传感器（如RGB摄像机）面临着带宽与延迟之间的权衡：更高的帧率可以减少感知延迟但增加带宽需求，而较低的帧率以增加感知延迟为代价来节省带宽（图1a）。这种权衡在汽车安全领域尤为显著，其中反应时间至关重要。先进的驾驶员辅助系统以每秒30至45帧（fps）的速度进行记录，导致盲时达到22至33毫秒。这些盲时在高速场景中可能至关重要，例如检测快速移动的行人或车辆或丢失的货物。此外，当存在高不确定性时，例如由于不利天气条件导致交通参与者部分遮挡或照明不良时，这些帧率会人为地将决策时间延长至0.1至0.5秒（参考文献10-14）。在此期间，以12公里/小时的速度奔跑的突然出现的行人（图1b）将移动0.3至1.7米，而以50公里/小时的速度行驶的汽车将移动1.4至6.9米。

减少这种盲时对于安全至关重要。为了解决这个问题，行业正在向更高帧率的传感器发展，从而显著增加数据量。目前无人驾驶汽车每小时收集的数据量高达11太字节，预计这一数字将增至40太字节。虽然云计算提供了一些解决方案，但它引入了高网络延迟。

一个很有前途的替代方案是事件相机，它捕获的是每个像素的强度变化，而不是固定间隔的帧。它们具有低运动模糊、高动态范围、时空稀疏性以及微秒级的分辨率，且带宽和功耗较低。它们能够适应场景动态，提供低延迟和低带宽的优势。然而，基于事件的方法的准确性目前受到传感器无法捕获缓慢变化信号的限制，以及将事件转换为类似帧的表示形式以使用卷积神经网络（CNNs）进行分析的处理方法效率低下。这导致了冗余计算、更高的功耗和更高的计算延迟。计算延迟是指从读取测量值到产生输出所需的时间。

我们提出了一种新的基于事件和帧的混合目标检测器，该检测器结合了用于图像的标准CNN和用于事件的高效异步图神经网络（GNN）。GNN以递归方式处理事件，这最大限度地减少了冗余计算，并利用了关键的架构创新，如专用的卷积层、有针对性的事件跳过以及专用的有向事件图结构，以提高计算效率。

我们的方法利用基于事件和帧的传感器的优势，利用图像中的丰富上下文信息以及来自事件的稀疏和高速率事件信息，以减少感知延迟的方式实现高效、高速率的物体检测。在汽车应用中，它覆盖了基于图像的传感器的盲区时间间隔，同时保持低带宽。通过这种方式，它提供了可验证的现实快照，展示了物体在下一张图像中变得可见之前的状态（如图1c所示），或者捕捉物体运动以编码交通参与者的意图或轨迹。

我们的研究结果表明，将20帧每秒（fps）的RGB相机与事件相机配对可以匹配5000帧每秒相机的延迟，但仅使用45帧每秒相机的带宽，显著提高了平均精度（mAP）（如图4c所示）。这种方法利用了事件相机在边缘场景中进行高效、准确和快速物体检测的未被开发的潜力。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Low-latency automotive vision with event cameras

作者：Daniel Gehrig、Davide Scaramuzza

机构：苏黎世大学

原文链接：https://doi.org/10.1038/s41586-024-07409-w

代码链接：https://github.com/uzh-rpg/dagr

2. 摘要

目前，高级驾驶辅助系统中使用的计算机视觉算法主要依赖于基于图像的RGB摄像头，这导致了在提供安全驾驶体验方面带宽和延迟之间的关键权衡。为了解决这个问题，事件相机作为替代视觉传感器应运而生。事件相机异步测量强度的变化，提供高时间分辨率和稀疏性，显著降低了带宽和延迟要求。尽管有这些优势，但基于事件相机的算法要么在效率上很高但在准确性上落后于基于图像的算法，要么牺牲事件的稀疏性和效率以达到相似的结果。为了克服这一问题，我们提出了一种基于事件和帧的混合目标检测器，它保留了每种模式的优势，因此不会受到这种权衡的影响。我们的方法利用事件的高时间分辨率和稀疏性以及标准图像中丰富但时间分辨率较低的信息，生成高效、高帧率的目标检测，减少了感知和计算延迟。我们展示了使用每秒20帧（fps）的RGB摄像头加上一个事件摄像头可以达到每秒5000帧摄像头的相同延迟，同时保持与每秒45帧摄像头相同的带宽，而不需要牺牲准确性。我们的方法通过挖掘事件相机的潜力，为边缘情况下的高效和鲁棒感知铺平了道路。

3. 系统概述

我们提出的系统，我们称之为深度异步GNN（DAGr），如图2所示。有关每个网络组件的详细可视化，请参见扩展数据图1。该系统结合了用于图像处理的CNN30和用于处理事件的异步GNN。这些处理步骤导致具有高时间分辨率和低延迟的对象检测（图2，底部时间线上的绿色矩形）。

接下来，我们讨论如何将事件和图像结合起来。每次图像到达时，CNN都会对其进行处理，并以单向方式将特征共享给异步GNN，即CNN特征被共享给GNN，但反之则不然。因此，GNN利用图像特征来提高其性能，特别是在只触发少量事件的静态或慢动作场景中更为常见。

异步GNN根据由高效CUDA实现，从事件中构建时空图，并通过一系列卷积和池化层处理该图以及与从图像中获得的特征（通过跳跃连接）。为了促进深度和高效的网络训练，我们使用图残差层（扩展数据图1c）。此外，我们设计了一个专用的体素网格最大池化层（扩展数据图1d），该层减少了早期层中的节点数量，从而限制了较低层的计算量。我们模仿了YOLOX的检测头和训练策略，尽管我们用图卷积层替换了标准卷积层（扩展数据图1e）。最后，我们设计了样条卷积层的一个高效变体作为核心构建块。该层预先计算查找表，因此与原始层相比节省了计算量。

将GNN转换为异步模型。我们首先在事件和图像的批次上训练网络，然后通过制定递归更新规则将训练好的模型转换为异步模型。具体来说，给定图像I0和直到下一帧（50毫秒后）的事件E，我们训练模型以检测下一帧中的对象。

异步模型具有与训练模型相同的权重，但使用递归更新规则（扩展数据图2）单独处理事件并产生相同的输出。在每一层，它都保留其先前的图结构和激活的记忆，并在每个新事件上更新这些记忆。这些更新是高度局部化的，因此极大地减少了总体计算量。为了通过这种方法最大限度地节省计算量，我们采用了三种主要策略。首先，我们将每一层的计算限制在节点之间发送的单条消息上，这些节点的特征或节点位置已发生更改（扩展数据图2a），然后将这些更改中继到下一层。其次，我们修剪非信息性更新，这阻止了将更新中继到较低层（扩展数据图2b）。这个修剪步骤发生在网络早期执行的最大池化操作中，从而最大限度地发挥了修剪的潜力。最后，我们使用有向和无向事件图（扩展数据图2c）。有向事件图仅在节点按时间顺序排列时才连接它们，这抑制了更新传播并带来了进一步的效率提升。

我们在“方法”部分报告了我们方法的每个组件的消融研究。在此，我们报告了我们的系统与最先进的事件和基于帧的目标检测器在效率和准确性方面的比较。首先，我们展示了异步GNN仅处理事件时的性能，然后再展示结合图像和事件的结果。然后，我们比较了我们的方法在连续帧之间的盲时间中检测目标的能力。我们发现，我们的方法在实现高性能（通过使用图像，超过仅基于图像和事件的检测器）和保持高效性方面取得了平衡，特别是与将事件作为密集帧处理的现有方法相比。

4. 实验结果

我们通过验证我们自收集的DSEC-Detection数据集上的性能，来评估我们的方法融合图像和事件的能力。有关数据集和收集方式的详细信息可以在“方法”部分和参考文献中找到。DSEC-Detection的下载和可视化说明可以在https://github.com/uzh-rpg/dsec-det 上找到。我们报告了我们的方法以及最先进的事件和基于帧的方法在查看一张图像后，以及在那张图像之后的50毫秒事件中的性能。此外，我们在图3c中报告了每插入事件的MFLOPS（每秒百万浮点运算次数）计算量。这些结果是在DSEC-Detection测试集上计算的。完整的结果表格，包括每个事件的功耗（以μJ为单位），请参见扩展数据表1。

我们观察到，采用ResNet-18作为主干的基线方法比Inception + SSD（18.4 mAP）和Events + YOLOv3（28.7 mAP）方法的mAP高出9.1个点。我们认为这种差异来自于文献34中观察到的更优的检测头部和次优的将事件堆叠成事件直方图的方法。Events + YOLOX的性能超过了我们的方法，两者都是基于相同的ResNet-18主干进行比较的（我们的方法mAP为37.6，而Events + YOLOX的mAP为40.2）。这种差异可能来自于Events + YOLOX中事件特征和帧特征之间的双向特征共享，而我们的方法中没有这一机制。最后，使用更大的ResNet-50主干将我们的性能提升到了41.9 mAP。在计算复杂度方面，我们的方法优于所有方法，仅使用了亚军Events + YOLOX计算量的约0.03%。计算复杂度仅受CNN主干的微弱影响，随着CNN主干容量的增加，计算复杂度会降低。这表明随着图像特征变得越来越重要，事件特征逐渐被更多地过滤掉。同样，在功耗方面，我们的方法以每个事件仅消耗5.42 μJ的功耗优于所有其他方法。采用有向边（用符号†标记）使我们的ResNet-50主干方法的计算量减少了91%，同时mAP仅降低了2%。

我们报告了我们的方法对于从图像开始的不同时间偏移Δt_i_n（其中n=10且i=0,...,10，Δt=tE−tI=50ms）的检测性能，并在插值后的真实标签上进行了评估，具体描述见“方法”部分。这里，tI表示帧时间以及插入到GNN中的事件窗口的开始时间，tE表示事件窗口的结束时间。请注意，这里的真实标签仅限于没有出现或消失对象的子集。因此，我们评估了该方法测量线性（在间隔之间）和非线性运动（在t=50ms时）以及复杂对象变形的能力。这些变形尤其出现在行人建模中，行人经常受到突然、复杂和反射性运动的影响，并且具有可变形外观，例如当他们伸展手臂、绊倒或摔倒时。我们在图4a中绘制了不同时间偏移的检测性能，包括有事件（青色）和无事件（黄色）的情况，以及Events + YOLOX基线（蓝色）。对于图像基线，我们还测试了恒定和线性外推模型（黄色和棕色）。在恒定外推模型中，我们保持对象位置随时间恒定；对于线性模型，我们执行与先前检测的匹配步骤，然后将对象线性传播到未来。线性外推技术的更多细节见“方法”部分。我们还在“方法”部分提供了使用不同主干网络的进一步结果。

我们基于事件和图像的方法（青色）在整个50毫秒期间显示出轻微的性能提升，最终在50毫秒后获得了0.7 mAP的更高分数。这可能是因为添加了事件，即提供了更多的信息。随后的轻微下降可能是因为图像信息变得更为陈旧。Events + YOLOX 的初始 mAP 为 34.7，然后上升到 42.5，并在 50 毫秒时稳定在 42.2。值得注意的是，Events + YOLOX 在 t=0 时的性能比我们的方法低 8.8 mAP，并且总体上稳定性较差，在 0 毫秒到 50 毫秒之间最多提升了 7.5 mAP。尽管所有方法都使用固定的 50 毫秒时间窗口进行训练，但我们的方法可以更稳定地泛化到不同的时间窗口，而 Events + YOLOX 则对接近 50 毫秒的时间窗口过度拟合。

5. 讨论

在汽车领域利用事件相机的低延迟和鲁棒性需要精心设计一种算法，该算法需要考虑事件和帧的不同数据结构。我们提出了DAGr，这是一种高效的目标检测器，它显示出相对于最先进的事件和基于图像的目标检测器的多个优势。首先，它使用了一种高效的异步GNN，该网络将事件作为流数据结构而不是密集数据结构进行处理，因此效率提高了四个数量级。其次，它在架构构建块上进行了创新，以在保持比竞争异步方法更高效的同时扩展网络深度。由于网络更深，我们的方法与其他稀疏方法相比可以实现更高的准确性。最后，与图像结合使用时，我们的方法可以在帧之间的盲时间中有效检测目标，并在整个盲时间中保持高检测性能，这与竞争基线方法不同。此外，与其他需要多次重新处理数据的融合方法相比，它能够在保持高效的同时实现这一点，避免了浪费计算资源。

将这种方法与激光雷达（LiDAR）等其他传感器结合使用，可以成为一个有前景的未来研究方向。例如，激光雷达可以提供强大的先验知识，如果使用较浅的网络，可能会提高我们方法的性能并降低复杂性。

最后，尽管当前的方法承诺比基于事件和图像的最新方法提高四个数量级的效率，但这尚未转化为相同的时间效率增益。当前的工作通过比密集方法快3.7倍的运行时间来改进算法的运行性能，但进一步的运行时间减少必须来自在潜在的脉冲硬件加速器上的适当实现。

尽管存在剩余的局限性和未来的工作，但与传统的基于事件和图像的方法相比，展示几个数量级的效率提升，并利用图像进行鲁棒性高、带宽低、延迟低的目标检测，是计算机视觉和机器智能领域的一个里程碑。这些结果为在边缘场景中进行高效且准确的目标检测铺平了道路。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉课程官网： www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、