生成式AI时代最火AI芯片峰会下月来袭!9月6-7日,智猩猩发起主办的
2024全球AI芯片峰会
将在北京盛大举行。峰会设有开幕式、数据中心AI芯片专场、边缘/端侧AI芯片专场、智算集群技术论坛等7大板块。来自AMD、高通、Habana、壁仞科技、摩尔线程、苹芯科技、亿铸科技、凌川科技、云天励飞、中国移动研究院、北极雄芯等50+企业/嘉宾将参会演讲或讨论。扫码报名或购票~
今天为大家分享浙大&华为最新的工作Drive-OccWorld!基于Occ世界模型的端到端自动驾驶,直接干到未来!
世界模型基于各种自车行为预测潜在的未来状态。它们嵌入了关于驾驶环境的广泛知识,促进了安全和可扩展的自动驾驶。大多数现有方法主要关注数据生成或世界模型的预训练范式。与上述先前的工作不同,我们提出了Drive-OccWorld,它将以视觉为中心的4D预测世界模型应用于自动驾驶的端到端规划。具体来说,我们首先在内存模块中引入语义和运动条件规范化,该模块从历史BEV嵌入中积累语义和动态信息。然后将这些BEV特征传输到世界解码器,以进行未来时刻的OCC和flow预测,同时考虑几何和时空建模。此外我们在世界模型中注入灵活的动作条件,如速度、转向角、轨迹和命令,以实现可控发电,并促进更广泛的下游应用。此外,我们探索将4D世界模型的生成能力与端到端规划相结合,从而能够使用基于职业的成本函数对未来状态进行连续预测并选择最佳轨迹。对nuScenes数据集的广泛实验表明,Drive-OccWorld可以生成合理可控的4D占用,为推动世界生成和端到端规划开辟了新途径。
提出了Drive OccWorld,这是一个以视觉为中心的世界模型,旨在预测4D Occ和flow,我们探索了世界模型的未来预测能力与端到端规划的整合。
设计了一个简单而高效的语义和运动条件归一化模块,用于语义增强和运动补偿,提高了预测和规划性能。
提供了一个统一的调节接口,将灵活的动作条件集成到后代中,增强了Drive OccWorld的可控性,并促进了更广泛的下游应用。
World Models for Autonomous Driving
基于未来状态的生成模式,现有的自动驾驶世界模型主要可分为基于2D图像的模型和基于3D体积的模型。
2D Image-based Models:
旨在使用参考图像和其他条件(例如动作、HDMaps、3D框和文本提示)预测未来的驾驶视频。GAIA-1使用自回归Transformer作为世界模型,根据过去的图像、文本和动作标记预测未来的图像标记。其他方法,如DriveDreamer、ADriver-I、DrivengDiffusion,GenAD、Vista、Delphi和Drive-WM,使用潜在扩散模型(LDMs)生成图像到输出视频。这些方法侧重于设计模块,将动作、BEV布局和其他先验元素纳入去噪过程,从而产生更连贯、更合理的未来视频代。
3D Volume-based Models:
以点云或占领的形式预测未来的状态。Copilot4D使用VQVAE对LiDAR观测进行标记,并通过离散扩散预测未来的点云。ViDAR实现了视觉点云预测任务,以预训练视觉编码器。UnO根据激光雷达数据预测了一个具有自我监督功能的持续占领区。OccWorld和OccSora使用场景标记器压缩职业输入,并使用生成变换器预测未来的职业。UniWorld和DriveWorld提出通过4D职业重建进行4D预训练。
在这项工作中通过输入动作条件来实现动作可控生成,并将这种生成能力与端到端的安全驾驶规划者相结合,从而研究了世界模型的潜在应用。
准备工作
端到端的自动驾驶模型旨在直接基于传感器输入和自我行为来控制车辆(即规划轨迹)。从形式上讲,给定历史传感器观测值和h个时间戳上的自我轨迹,端到端模型A预测了未来f个时间戳的理想自车轨迹:
驾驶世界模型W可以被视为一种生成模型,它将先前的观察和自车行为作为输入,生成环境的合理未来状态:
鉴于世界模型预测未来状态的能力,我们建议将其与规划器集成,以充分利用世界模型在端到端规划中的能力。
具体来说引入了一个名为Drive-OccWorld的自回归框架,该框架由一个用于预测未来职业和流动状态的生成世界模型W和一个基于职业的规划器P组成,该规划器P使用成本函数来基于评估未来预测来选择最佳轨迹。
从形式上讲,我们将Drive OccWorld公式化如下,它自动回归预测下一个时间戳的未来状态和轨迹:
值得注意的是,对于动作可控的生成,可以以速度等形式将a注入W中作为条件,并丢弃P以防止潜在的自车状态泄漏。在端到端规划中,预测轨迹
用作
处的动作条件,用于预测下一个状态
,从而不断推出预测和规划。
在接下来的部分中,我们将详细介绍世界模型的结构,为W配备动作可控生成,并将其与P集成以进行端到端规划。
4D Forecasting with World Model
如图2所示,Drive-OccWorld包括三个组件:(1)历史编码器WE,它将历史相机图像作为输入,提取多视图几何特征,并将其转换为BEV嵌入。根据之前的工作,我们使用视觉BEV编码器作为我们的历史编码器。(2)具有语义和运动条件归一化的记忆队列WM,它在潜在空间中采用简单而高效的归一化操作来聚合语义信息并补偿动态运动,从而积累更具代表性的BEV特征。(3)世界解码器WD,其通过具有历史特征的时间建模来提取世界知识,以预测未来的语义职业和流动。灵活的动作条件可以注入WD,以实现可控生成。集成了基于occ的规划器P,用于连续预测和规划。
Semantic- and Motion-Conditional Normalization
旨在通过结合语义和动态信息来增强历史BEV嵌入。
如图3所示,我们实现了一个轻量级的预测头来生成体素语义概率:
在运动条件归一化中,我们补偿自车和其他代理在不同时间戳上的运动。具体来说,自车姿态变换矩阵(考虑了自我载体从时间戳-t到+t的移动)被展平并编码到MLP处理的嵌入中,以生成仿射变换参数。
Future Forecasting with World Decoder
:WD是一种自回归变换器,它根据存储在WM中的历史BEV特征和预期动作条件
预测未来帧+t的BEV嵌入
。
具体来说,WD将可学习的BEV查询作为输入,并执行可变形的自注意、与历史嵌入的时间交叉注意、与动作条件的条件交叉注意力以及前馈网络来生成未来的BEV嵌入。条件层在BEV查询和动作嵌入之间执行交叉注意力,这将在下一节中说明,将动作可控信息注入预测过程。在获得下一个BEV嵌入后,预测头利用通道到高度操作来预测语义占用和3D backward centripetal flow。
Action-Controllable Generation
由于现实世界的固有复杂性,自我载体的运动状态对于世界模型理解主体如何与其环境交互至关重要。因此,为了全面涵盖环境,我们建议利用各种行动条件,使Drive OccWorld具有可控生成的能力。
Diverse Action Conditions:
包括多种格式:(1)速度在给定的时间步长定义为(vx,vy),表示自车辆沿x和y轴分解的速度,单位为m/s。(2)转向角从转向反馈传感器收集。根据VAD,我们将其转换为
中的曲线。(3)轨迹表示自车位置到下一个时间戳的移动,公式为(
),单位为米。它被广泛用作端到端方法的输出,包括我们的规划器P。(4)命令由前进、左转和右转组成,代表了控制车辆的最高级别意图。
Unified Conditioning Interface
旨在将异质动作条件整合到连贯的嵌入中。我们首先将所需的动作编码到傅里叶嵌入中(,通过额外的学习投影将其连接和融合,以与WD中条件交叉注意力层的维度对齐。该方法有效地将灵活的条件集成到可控的生成中。
End-to-End Planning with World Model
现有的世界模型主要关注数据生成或自动驾驶的相关范式。尽管最近的一项开创性工作Drive WM提出将生成的驾驶视频与基于图像的奖励函数相结合来规划轨迹,但环境的几何3D特征并没有完全用于运动规划。如图2所示,鉴于我们的世界模型提供的未来occ预测能力,我们引入了一个基于occ的规划器,对代理和可驾驶区域的占用网格进行采样,以确定安全约束。此外,未来的BEV嵌入用于学习考虑细粒度3D结构的成本量,为安全规划提供更全面的环境信息。
基于占用的成本函数旨在确保自驾车的安全驾驶。它由多个成本因素组成:(1)代理安全成本限制了自车与其他代理(如行人和车辆)的碰撞。它惩罚与其他道路使用者占用的网格重叠的轨迹候选者。此外,在横向或纵向距离方面与其他主体太近的轨迹也受到限制,以避免潜在的碰撞。(2)道路安全成本确保车辆在道路上行驶。它从占用预测中提取道路布局,惩罚超出可驾驶区域的轨迹。(3)学习量成本受ST-P3的启发。它使用基于F bev+t的可学习头部来生成成本量,从而对复杂的世界进行更全面的评估。
BEV Refinement:
引入BEV嵌入来进一步细化潜在空间中的轨迹。我们将
编码为嵌入,并将其与命令嵌入连接起来,形成自我查询。最终的轨迹是通过MLP基于精炼的自我查询进行预测的。
规划损失Lplan由三个部分组成:引入的max-margin损失,用于约束轨迹候选的安全性;用于模仿学习的l2损失;以及确保规划轨迹避开障碍物占用的网格的碰撞损失。
Main Results of 4D Occupancy Forecasting
Inflated Occupancy and Flow Forecasting。
表1展示了nuScenes数据集上Inflated的占用率和流量预测的比较。尽管Drive OccWorld在当前时刻的结果mIoUc上表现稍差,但它在mIoUf上的表现比Cam4DOcc高出2.0%,表明其预测未来状态的能力更强。