点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving
作者:Xiang Li, Pengfei Li, Yupeng Zheng, Wei Sun, Yan Wang, Yilun Chen
机构:Institute for AI Industry Research (AIR), Tsinghua University
原文链接:https://arxiv.org/abs/2502.07309
代码链接:https://github.com/getterupper/PreWorld
1. 导读
了解世界动态对于自动驾驶的规划至关重要。最近的方法试图通过学习3D占用世界模型来实现这一点,该模型基于当前观察来预测未来的周围场景。然而,仍然需要3D占用标签来产生有希望的结果。考虑到3D户外场景的高标注成本,我们提出了一个半监督的以视觉为中心的3D占位世界模型PreWorld,通过一个新颖的两阶段训练范式来利用2D标签的潜力:自我监督的预训练阶段和完全监督的微调阶段。具体而言,在预训练阶段,我们利用属性投影头来生成场景的不同属性场(例如,RGB、密度、语义),从而能够通过体绘制技术从2D标签进行时间监控。此外,我们引入了一个简单而有效的状态条件预测模块,以直接的方式递归预测未来的占用率和自我轨迹。在nuScenes数据集上的大量实验验证了我们方法的有效性和可扩展性,并表明PreWorld在3D占用预测、4D占用预测和运动规划任务上取得了有竞争力的性能。
2. 效果展示
(a)自监督3D占用模型仅使用2D标签作为监督即可进行训练。然而,它缺乏预测未来占用的能力。相比之下,(b)完全监督3D占用世界模型可以预测未来占用,但由于其间接架构(使用冻结的3D占用模型),它依赖于3D占用标签才能获得有意义的结果。为了解决这些挑战,我们的(c)半监督3D占用世界模型结合了2D渲染监督和端到端架构,可以从图像输入中直接预测未来占用,同时利用2D标签
0cc3D-nuScenes验证集上的3D占位预测定性结果。整体结构和场景的细粒度细节分别由橙色框和红色框突出显示。与现有的完全监督方法和自监督方法相比,PreWorld可以获得更好的场景结构和捕捉更精细的局部细节。
3. 主要贡献
-个半监督的以视觉为中心的3D占领世界模型,PreWorld,它在训练期间同时利用2D标签
和3D占用标签。
·一种全新的两阶段培训模式,其有效性和可扩展性已通过广泛的实验得到验证。
一个简单但有效的状态预报模块,能够同时与占用网络进行选择,并基于可视化输入进行直接的未来预测。
推荐课程:
为何BEV和Occupancy撑起了自动驾驶的半边天?
·与SOTA方法相比进行了广泛的实验,证明我们的方法在多个任务中实现了具有竞争力的性能,包括3D占位预测、4D占位预测和运动规划。
4. 方法
我们提出的PreWorld的架构。首先,使用占位网络从多视图图像中提取体积特征。随后,使用历史特征递归预测未来体积特征的状态条件预测块。在自监督预训练阶段,体积特征通过体积渲染技术投影到各种属性字段中,并通过2D标签进行监督。在完全监督微调阶段,属性投影头不再参与计算,通过占位头直接获得占位预测,并由3D占位标签监督。
5. 实验结果
6. 总结
在这篇论文中,我们提出了PreWorld,这是一个半监督的以视觉为中心的3D占位世界模型,用于自动驾驶。我们提出了一种新颖的两阶段训练范式,使得我们的方法可以利用丰富且易于获取的2D标签进行自我监督的预训练。在随后的微调阶段,模型进一步使用3D占位标签进行优化。此外,我们引入了一个简单而有效的状态条件预测模块,解决了现有方法在同时优化占位网络和预测模块时面临的挑战。该块在训练过程中减少了信息损失,同时使模型能够根据视觉输入直接预测未来场景和自我轨迹。通过广泛的实验,我们展示了PreWorld在3D占位预测、4D占位预测和运动规划任务中的稳健性。特别是,我们验证了我们的训练范式的有效性和可扩展性,概述了在自动驾驶场景中可扩展模型训练的可行路径。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。