专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

ECCV'24开源 | 预测未来！CarFormer：打造最强自动驾驶 + 世界模型！

计算机视觉工坊 · 公众号 · · 2024-08-01 07:00

正文

点击下方卡片，关注 「计算机视觉工坊」 公众号
选择星标，干货第一时间送达

编辑：计算机视觉工坊

0. 这篇文章干了啥？

一句话总结：我们介绍了CarFormer，这是一种自回归Transformer模型，既可以驱动也可以作为世界模型，预测未来的状态。我们证明，基于槽注意力的学习、自我监督、以对象为中心的自动驾驶表示包含了驾驶所需的信息，如车辆的速度和方向。

下面一起来阅读一下这项工作~

1. 论文信息

标题：CarFormer: Self-Driving with Learned Object-Centric Representations

作者：Shadi Hamdan, Fatma Güney

机构：KUIS AI Center

原文链接：https://arxiv.org/abs/2407.15843

代码链接：https://github.com/Shamdan17/CarFormer

官方主页：https://kuis-ai.github.io/CarFormer/

2. 摘要

在自动驾驶中，表示方法的选择起着关键作用。近年来，鸟瞰图（BEV）表示方法展现出了卓越的性能。在本文中，我们提出在BEV中学习以物体为中心的表示方法，以将复杂的场景提炼为更易于自动驾驶系统操作的信息。我们首先使用基于BEV序列的槽注意力模型，学习将物体放置到槽位中。在这些以物体为中心的表示基础上，我们训练一个Transformer模型，使其学会驾驶，并能够对其他车辆的未来行为进行推理。我们发现，以物体为中心的槽位表示方法在性能上优于使用物体精确属性的场景级和物体级方法。槽位表示方法自然地融合了物体在空间和时间上下文中的信息，如位置、朝向和速度，而无需显式提供这些信息。我们的带槽位模型提高了所提供路线的完成率，从而获得了更高的驾驶评分，并且在多次运行中的方差更低，这证实了槽位在以物体为中心的方法中是一种可靠的替代方案。此外，我们通过预测实验验证了我们的模型作为世界模型的性能，证明了其准确预测未来槽位表示的能力。代码和预训练模型可在https://kuisai.github.io/CarFormer/上找到。

3. 效果展示

4. 主要贡献

– 一种基于槽注意力机制的、自监督的、以物体为中心的自动驾驶表示方法，它包含驾驶所需的信息，如车辆的速度和方向，而无需显式提供这些信息。

– CarFormer，一种自回归Transformer，既可以驾驶也可以作为世界模型，预测未来状态。

– 在Longest6基准测试的特权设置下，达到了最先进的性能，优于精确的物体级属性。

5. 基本原理是啥？

我们介绍了CarFormer，用于在CARLA的城市环境中学习驾驶。由于本车与其他车辆之间的交互，城市驾驶呈现出复杂性。我们的目标是通过槽位表示来捕捉场景动态，从而学习驾驶行为。我们将行为学习表述为一个序列建模问题，如图1所示。该序列由表示目标、状态和动作的标记组成。在详细介绍模型架构之前，我们首先定义了每个方面的表示。

6. 实验结果

比较：我们在表1中展示了在Longest6基准上的在线评估结果。该表根据表示类型的不同分为三个部分：顶部是场景级表示，其次是精确物体级属性，底部是物体级槽位表示。在场景级表示中，CarFormer落后于另一种模仿学习方法AIMBEV和一种强化学习方法ROACH。尽管使用VQ-VAE可以准确地重建输入BEV，但该模型无法关注物体，这由明显较低的违规分数（IS）证明。

与使用VQ-VAE的场景级表示相比，我们发现物体级表示的性能有显著提升。尽管由于行驶距离更长而导致IS较低，但带有槽位的CarFormer在远程控制（RC）方面的表现优于PlanT，其平均驾驶分数（DS）更高，且方差仅为PlanT的一半（见表1）。这一成就尤其值得注意，原因有两点：首先，槽位模型（底部一行）仅凭BEV就实现了这一点。虽然PlanT和带有属性的CarFormer可以访问精确的代理位置，但槽位模型学会了将代理准确地放置在槽位中。其次，槽位模型的方差显著降低，表明其在多次运行中的稳定性更高，从而证实了槽位是属性向量的一种更可靠的替代方案。请注意，我们模型性能的提升不能归因于架构的变化，因为带有属性的CarFormer的性能比方差更高的PlanT更差。

7. 总结 & 未来工作

在本文中，我们介绍了CarFormer，这是首个采用物体级槽位表示的自动驾驶方法。我们证明了使用槽位进行推理不仅提高了驾驶评分，还提高了在多次在线评估中面对各种变化时的鲁棒性。我们训练和验证了CarFormer的性能，既将其作为预测动作的策略，又将其作为预测物体未来状态的视觉动力学模型。与PlanT利用Transformer编码器处理单个时间步长不同，我们在CarFormer中采用了自回归Transformer解码器。这种设计有潜力扩展到使用奖励/回报令牌的多步推理，正如在机器人任务中所展示的。

与机器人任务相比，自动驾驶的状态表示更为复杂，除了众所周知的外观挑战外，还涉及物体之间复杂的动态关系，特别是在从摄像机中提取信息时。我们目前假设在我们的模型中可以使用真实的鸟瞰图（BEV）地图。尽管近年来在学习BEV表示方面取得了显著进展，但在城市驾驶场景中，BEV感知仍然缺乏从中提取槽位所需的准确性。与其采用先估计BEV再从中提取槽位的两阶段方法，不如采用更直接的方法在BEV中提取槽位，这既提高了效率，又避免了级联错误。随着从现实世界视频中提取槽位的技术进步，任何可以被放入槽位的物体都可以成为我们模型中的推理部分。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、Mamba、 NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉学习知识星球

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接