专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

自动驾驶新框架！DeTra：目标检测和轨迹预测大一统！

计算机视觉工坊 · 公众号 · · 2024-10-20 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：DeTra: A Unified Model for Object Detection and Trajectory Forecasting

作者：Sergio Casas, Ben Agro, Jiageng Mao, Thomas Gilles, Alexander Cui, Thomas Li, Raquel Urtasun

机构：Waabi、University of Toronto

原文链接：https://arxiv.org/abs/2406.04426

1. 引言

为了确保自动驾驶技术的安全部署，自动驾驶汽车（SDV）必须能够感知周围环境并准确预测潜在结果。目标检测和轨迹预测任务在自动驾驶技术栈中实现了这两项能力。目标检测旨在识别和定位环境中的物体，而轨迹预测则以轨迹的形式预测这些物体未来的行为。随后，规划器会根据检测到的物体及其未来轨迹，为自车生成安全的操控策略。

为了解决目标检测和轨迹预测作为姿态细化问题，我们利用多对象、多假设和时间可学习查询，这些查询通过关注LiDAR点云和高精度（HD）地图进行细化。然而，对LiDAR和地图进行全局交叉关注以及所有查询之间的自关注是极其昂贵且难以优化的。为了使交叉关注实用化，我们将每个查询与表示我们对特定对象在BEV中特定时间、单个未来行为模式下的位置信念的姿态进行配对，并在邻域内执行局部关注。为了使三维查询的自关注实用化，我们将其分解为对象、时间和模式关注。

我们在两个流行的自动驾驶数据集Argoverse 2 Sensor和Waymo Open上展示了我们的方法的有效性，其中DETRA在广泛的检测、预测和联合指标上均优于最先进的方法。重要的是，通过消融研究，我们还表明我们提出的细化机制非常强大，每个提出的组件都对整体方法做出了积极贡献，并且在多个组件之间做出了关键的设计选择。

2. 导读

目标检测和轨迹预测任务在理解自动驾驶场景中起着至关重要的作用。这些任务通常以级联方式执行，这使得它们容易出现复合错误。此外，这两项任务之间通常只有很薄的界面，这就造成了信息丢失的瓶颈。为了应对这些挑战，我们的方法将这两个任务的联合公式化为轨迹细化问题，其中第一个姿态是检测(当前时间)，后续姿态是多个预测的航路点(未来时间)。为了解决这个统一的任务，我们设计了一个优化转换器，直接从激光雷达点云和高清地图中推断对象的存在、姿态和多模式未来行为。我们称这个模型为DeTra，是物体检测和轨迹预测的缩写。在我们的实验中，我们观察到，在广泛的指标范围内，在Argoverse 2传感器和Waymo Open数据集上以较大优势超越了最先进的技术。最后但并非最不重要的一点是，我们进行了广泛的消融研究，研究显示了这项任务的改进价值，每个提议的组件都对其性能有积极的贡献，并且做出了关键的设计选择。

3. 效果展示

传统的自动驾驶系统将目标检测和轨迹预测作为两个独立的任务来处理，通过跟踪将它们以级联的方式连接起来（图1a）。跟踪是一个狭窄的信息瓶颈，仅向下游预测提供带有噪声的历史轨迹，以描述每个物体的运动。尽管在概念上很简单，但这种级联分解方式存在累积误差。例如，检测方向上的微小估计误差可能导致预测的轨迹占据错误的车道，从而使SDV执行危险操作，如急刹车。这些累积误差的严重性促使研究人员致力于测量并将感知不确定性纳入预测中。此外，跟踪错误（如错误关联）可能导致灾难性后果，这促使研究人员在整个流程中保持多个跟踪假设。

另一项工作提出了一个更根本的解决方案，即转向端到端检测和预测范式，其中两个任务共享高维场景特征并联合优化（图1b）。与传统方法相比，后者仅依赖于对象轨迹进行预测，这种范式可以通过更广泛的接口和针对两个任务优化的中间表示来更好地将不确定性传播到下游。然而，这些方法仍然依赖于级联推理，其中检测错误仍然可能传播到预测中。推荐课程：面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码) 。

我们的方法通过将检测和预测步骤重新表述为鸟瞰图（BEV）中的单个、更通用的轨迹细化任务来规避既定的级联方法，如图1c所示。在大多数自动驾驶流程中，规划器会接收一组随时间变化的对象轨迹，而不区分当前时间（检测）和未来（预测）。因此，我们将输出表述为一组对象轨迹，其中每条轨迹表示对象在BEV中从当前时间到未来的姿态。在这种表述中，检测仅仅是当前时间姿态的特例。

4. 方法

为了使自动驾驶车辆（SDV）能够规划出安全且可解释的操作，它必须获得对场景的全面理解，包括其他交通参与者当前的位置以及未来的位置。换句话说，自动驾驶车辆必须理解对象随时间变化的轨迹。由于道路相对平坦，鸟瞰图（BEV）已成为自动驾驶下游规划中实际采用的表示方式。因此，我们设计了DETRA，这是一种端到端模型，它将原始观测值转换为N个对象的BEV姿态轨迹集P，每个对象有F个未来假设，以及T个时间步长。这里的每个姿态都是一个三元组(x, y, θ)，用于描述对象的质心和航向（偏航角）。除了姿态外，它还预测了对象存在的置信度、对象的尺寸以及每个未来假设的概率。

图2展示了DETRA的概述。它由两部分组成：提取BEV场景表示和细化对象轨迹。我们解释了如何从激光雷达点云和高精度地图中提取场景的BEV表示。虽然这不是我们的主要贡献，但读者应该理解这些表示，因为它们是完成任务所必需的。然后，我们的核心贡献：一个细化转换器，它通过注意力机制随时间对多个对象和假设的姿态进行细化。最后，我们描述了用于以端到端方式在单个阶段内训练我们的方法的学习目标。

5. 实验结果

6. 总结 & 未来工作

在本文中，我们介绍了DETRA模型，该模型将检测和预测作为统一的轨迹细化任务来处理。我们设计了一个细化转换器架构，通过跨注意力机制对异构输入进行自我改进，并在时间、模式和对象维度上进行因式分解自注意力。我们在两个大规模自动驾驶数据集上进行的实验表明，我们的模型在性能上优于最新的模块化和端到端方法。重要的是，广泛的消融研究支持了我们的设计，表明所有组件都做出了积极贡献，我们提出的姿态细化至关重要，并且为了利用几何先验进行学习而做出了关键选择。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉知识星球

「 3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、