24年6月来自中科院自动化所、中科大和中科院香港创新研究院的论文“Enhancing End-to-End Autonomous Driving with Latent World Model”。
端到端自动驾驶引起了广泛关注。当前的端到端方法很大程度上依赖于感知任务(例如检测、跟踪和地图分割)的监督来帮助学习场景表征。然而,这些方法需要大量注释,从而阻碍了数据的可扩展性。为了应对这一挑战,提出了一种自监督方法来增强端到端驾驶,而无需昂贵的标签。具体来说,框架 LAW 使用 LAtent World 模型根据预测的自我动作和当前帧的潜特征来预测未来的潜特征。预测的潜特征由未来实际观测的特征监督。这种监督共同优化了潜特征学习和动作预测两个过程,从而大大提高了驾驶性能。
在端到端自动驾驶任务中,目标是以航路点形式估计自车的未来轨迹。
正式地,让 It = {I1t , I2t , . . . , INt } 为时间步 t 捕获的 N 个周围多视图图像集。
期望模型预测航路点序列 Wt ={wt1,wt2,...,wtM},其中每个航路点 wti = (xit, yti) 表示自车在时间步 t + i 预测的 BEV 位置。
M 表示模型旨在预测的自车辆未来位置数。
世界模型在自动驾驶任务中,旨在根据当前状态和动作预测未来状态。具体来说,让 Ft 表示在时间步 t 从当前帧中提取的特征,Wt ={wt1,wt2,...,wtM} 表示规划器规划的航点序列,世界模型使用 Ft 和 Wt 预测未来帧的特征 Ft+1。
最初,通过图像主干,处理 N 个视图图像以提取它们各自的特征表示。按照 PETR [25],为这些图像特征生成 3D 位置嵌入。这些位置嵌入与图像特征集成,唯一地标识每个视图。丰富的图像特征表示为 F = {f1,f2,...,fN}。
然后,采用视图注意机制将 F 压缩为观察的视图潜特征 V。在这里,用术语“观察的”来区分这个视图潜特征与其他视图潜特征。具体来说,对于 N 个视图,有 N 个可学习的视图查询 Qview = {q1view,q2view,...,qNview}。每个视图查询 qiview 与其对应的图像特征 fi 进行交叉注意,得到 N 个观察的视图潜特征 V = {v1,v2,...,vN}。
接下来,对观测的视图潜特征进行时间聚合。观测的视图潜特征 V 通过从前一帧生成的历史视图潜特征 H 得到增强。E = V + H。
给定 E,一个航点解码器解码航点。该模块使用航点查询从 E 中提取相关信息。具体来说,初始化 M 个航点查询,Qwp = {q1wp, q2wp, . . . , qMwp},其中每个查询都是可学习的嵌入。这些航点查询通过交叉注意机制与 E 交互。然后,更新后的航点查询通过 MLP 头输出航点 W = {w1,w2,...,wM}。
在训练期间,用 L1 损失来衡量预测航路点与真值航路点之间的差异。
世界模型
首先,根据增强视图潜特征 Et 和预测路径点 Wt 生成基于动作的视图潜特征。具体来说,设 Et ={e1t,e2t,...,eNt },将 Wt ={wt1,wt2,...,wtM} 转换为一维向量 w。然后,沿特征通道维连接 e 和 w。连接后的向量由 MLP 变换以形成 ait,它与 eit 的特征通道维相匹配。
整体基于动作的视图潜特征为 At = {a1t, a2t, . . . , aNt}。随后,给定 At,通过潜世界模型获得第 t + 1 帧的预测视图潜特征 Pt+1。