0. 论文信息
标题:GPD-1: Generative Pre-training for Driving
作者:Zixun Xie, Sicheng Zuo, Wenzhao Zheng, Yunpeng Zhang, Dalong Du, Jie Zhou, Jiwen Lu, Shanghang Zhang
机构:Peking University, Tsinghua University, PhiGent Robotics
原文链接:https://arxiv.org/abs/2412.08643
代码链接:https://github.com/wzzheng/GPD
1. 导读
模拟驾驶场景的演变对于自动驾驶系统的评估和决策非常重要。大多数现有的方法集中于场景演化的一个方面,例如地图生成、运动预测和轨迹规划。在本文中,我们提出了一个统一的生成式驾驶前训练(GPD-1)模型来完成所有这些任务,而无需额外的微调。我们用自我、代理和地图令牌来表示每个场景,并将自动驾驶公式化为统一的令牌生成问题。我们采用自回归转换器架构,并使用场景级注意力掩模来实现场景内双向交互。对于自我和代理标记,我们提出了一个分层的位置标记器来有效地编码2D位置和标题。对于地图标记,我们训练了一个地图矢量量化自动编码器来有效地将以自我为中心的语义地图压缩成离散的标记。我们在大规模nuPlan数据集上对GPD-1进行预训练,并进行大量实验来评估其有效性。通过不同的提示,我们的GPD-1无需微调即可成功地推广到各种任务,包括场景生成、交通模拟、闭环模拟、地图预测和运动规划。
2. 引言
自动驾驶模拟器在开发和验证驾驶系统中发挥着至关重要的作用,能够在包括感知、运动预测和轨迹规划在内的各种驾驶场景中实现安全测试。自动驾驶模拟器的典型组件可以包括场景生成、交通模拟、闭环模拟和运动规划。特别是,近年来,鸟瞰图(BEV)表示方法的进步已经证明了使用模拟器复制真实驾驶条件和挑战的可行性。这类模拟器对于测试复杂行为、理解交互动态以及确保对潜在故障的鲁棒性至关重要,从而有助于构建安全和可靠的自动驾驶系统。然而,现有用于自动驾驶场景演变的方法通常具有专门性,并且局限于模拟器的特定方面,如地图生成、运动预测或轨迹规划。考虑到这些方法通常只关注一个孤立的任务,因此不存在一个将这些方面整合到一个连贯模型中进行整体模拟的统一框架。例如,最近的方法SLEDGE仅被训练用于重建单帧,并且缺乏控制接口,这限制了其支持各种下游任务的能力。它们无法充分利用场景级信息,包括场景元素之间的时间演变以及动态代理与地图元素之间的交互,这使得将其推广到不同的下游任务变得具有挑战性。推荐课程:面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)。
在本文中,我们提出使用驾驶生成式预训练(GPD-1)模型来统一这些元素。我们将地图、代理和自车编码为一组统一的令牌,使我们能够将场景演变表述为场景令牌的生成式预测。我们采用具有场景级注意力掩码的自回归Transformer架构,该架构可实现场景内的双向交互,从而使模型能够高效地捕获自车、代理和地图令牌之间的依赖关系。对于自车和代理令牌,我们提出了分层位置分词器,该分词器可以有效地编码鸟瞰图中的位置和朝向。位置分词器将连续代理位置转换为离散令牌,显著减少了特征空间中的噪声。对于地图令牌,我们利用矢量量化自动编码器(VQ-VAE)将自我中心的语义地图压缩为离散令牌。通过用离散令牌表示地图信息,我们消除了预测连续地图坐标的复杂性,简化了学习过程并增强了泛化能力。为了证明我们GPD-1模型的有效性,我们在不同任务中进行了一系列具有挑战性的实验。我们的模型在未经任何微调的情况下,能够进行场景生成、交通模拟、闭环模拟和运动规划。具体来说,场景生成涉及初始化一个场景,并让模型平滑地生成代理、地图和自车信息。交通模拟提供真实地图和初始代理状态,模型预测后续帧的演变。闭环模拟在给定真实地图和自车轨迹的情况下,允许模型根据自车运动动态调整代理轨迹。最后,在运动规划方面,模型根据提供的代理和地图信息生成自车轨迹。经过进一步的微调,GPD-1可以在下游任务上实现最先进的性能,特别是nuPlan基准测试中的运动规划任务。
3. 效果展示
给定过去的2D BEV观察,我们预训练的GPD-1模型可以联合预测未来的场景演变和代理移动。这项任务需要对2D场景的空间理解和驾驶场景进展的时间建模。我们观察到GPD-1成功地预测了周围代理和未来地图元素的移动。值得注意的是,它甚至产生了比地面真相更可信的驾驶区域,展示了它理解场景而不仅仅是记忆训练数据的能力。然而,它很难预测进入视野的新车辆,这是一个挑战,因为它们不在输入数据中。
4. 方法
我们的驾驶生成式预训练(GPD-1)模型采用两阶段训练过程,为自动驾驶模拟和规划任务构建坚实的基础。在第一阶段,我们训练Map VQ-VAE潜在分词器,采用L1误差评估地图线路位置,并采用二元交叉熵(BCE)评估地图线路可见性,如SLEDGE中所述。此外,为了提高码本的稳定性和精度,我们加入了均方误差(MSE)损失,以鼓励准确的量化。这一阶段创建了一个高保真度的地图潜在空间,能够准确编码空间结构,为场景生成奠定了坚实的基础。在第二阶段,冻结训练好的地图分词器,并用于提取每帧地图的潜在表示,这些表示既作为进一步训练的输入,也作为真实值。使用交叉熵(CE)损失来匹配生成的令牌与其正确的码本条目,确保准确的地图重建。我们平等地对待自车和代理令牌,使用平滑L1损失计算位置误差,并使用BCE损失进行存在性的二分类。这种结构化训练使模型能够捕获空间和时间的场景动态,从而能够在不同场景中实现一致的场景建模。
GPD-1无需额外的微调即可执行广泛的下游任务,在关键的自动驾驶应用中表现出灵活性。
场景生成:GPD-1通过初始化场景设置并预测代理、自车和地图特征的空间和时间演变来自主生成完整的场景。这项任务对于从最少的初始输入创建多样化的驾驶场景至关重要。
交通模拟:通过用真实地图和初始代理状态初始化模型,GPD-1能够准确预测交通如何在帧之间演变。这种模拟能力对于在动态环境中评估和训练自动驾驶模型至关重要,其中理解交通流是基础。
闭环模拟:给定真实地图和自车轨迹,模型可以根据自车运动动态调整代理行为。这种设置与nuPlan挑战中的闭环交互设置非常吻合,其中代理对自车行为的反应是通过模型生成的,而不是依赖于传统的基于规则的算法。
运动规划:GPD-1通过根据给定的代理和地图信息生成路线来支持自车轨迹规划。这种规划能力与实际的自动驾驶需求紧密契合,为传统规划方法提供了数据驱动的替代方案。
条件生成:GPD-1还可以处理条件生成,允许用户定义特定条件,如初始代理轨迹、代理数量或基于向量的地图特征。在这些约束条件下,GPD1自主生成兼容的场景演变,从而能够对目标、特定场景的驾驶条件进行精细控制模拟。
微调后的性能增强。在专用数据集或特定任务场景上进行微调可以进一步提高GPD-1的性能,特别是在复杂的规划任务中。微调使GPD-1能够生成符合诸如nuPlan规划挑战等严格标准的扩展、精确轨迹,其中闭环和开环性能对于准确轨迹预测都至关重要。
生成式预训练为GPD-1提供了一个灵活且稳健的结构,能够容纳自动驾驶中的广泛任务。从场景生成到细致的条件模拟,GPD-1为真实、响应迅速的驾驶模拟和轨迹规划提供了一个可适应且全面的解决方案,满足了自动驾驶研发中的基本需求。
5. 实验结果
为了证明GPD-1(为自动驾驶而设计的生成式预训练模型)的通用性,我们在多个下游任务中对其进行了应用,且未进行任何微调。
如表1所示,我们展示了模型在不同设置下的性能。在这些实验中,我们提供了固定的2秒地图和代理数据作为初始信息,并使用了不同的提示设置。
总体而言,自回归模型在迭代次数较少时表现最佳。例如,预测未来5秒仅需50次迭代,并能产生出色的结果。然而,随着迭代次数的增加,累积误差以近似二次方的速率增长。
场景生成。场景生成(SG)任务的设置最接近我们训练阶段的条件。对于代理车辆和自车,其性能指标是相似的,因为模型将自车视为普通代理,未进行任何特殊调整。图4显示,即使在复杂场景(如急转弯或拥堵区域)中,我们的普通代理也保持了出色的性能。这种鲁棒性水平通常是传统规划模型(如PlanTF)所无法达到的。
交通模拟。在此设置中,我们提供了真实地图。由于自回归模型固有的累积误差,自车的预测误差会增加。在较长的时间步长内,自车会越来越多地偏离其原始轨迹,而地图仍基于真实数据。
闭环模拟。在闭环模拟中,代理车辆能够适应自车轨迹的变化,保持较低的碰撞率,并展现出强大的可靠性。
运动规划。运动规划与nuPlan中的非交互式闭环设置相似。我们直接使用了该模型,未进行微调或额外的数据增强,但它仍然取得了令人称赞的结果。
6. 总结 & 未来工作
在本文中,我们为自动驾驶引入了生成式预训练模型GPD-1,该模型模拟了自车运动、周围代理和场景元素的联合演变。我们采用分层代理分词器和向量量化地图分词器来捕捉高级的空间和时间信息,而具有场景级注意力的自回归Transformer则用于预测多个驾驶任务中的未来场景。大量结果表明,GPD-1能够有效地泛化到不同的任务中,如场景生成、交通模拟和运动规划,而无需额外的微调。我们认为,GPD-1是朝着构建完全集成且可解释的自动驾驶框架迈出的基础一步。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球(点开有惊喜),已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com大模型、扩散模型、具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~