专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
每日经济新闻  ·  “门店数字化整体解决方案第一股”诞生 ... ·  3 天前  
仙桃电视台  ·  国家版减肥指南来了!仙桃人可以这样吃→ ·  3 天前  
仙桃电视台  ·  国家版减肥指南来了!仙桃人可以这样吃→ ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

ICLR'25开源 | 清华新作PreWorld:解放3D / 4D占用预测、运动规划对真值的依赖!

3D视觉工坊  · 公众号  ·  · 2025-02-15 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Semi-Supervised Vision-Centric 3D Occupancy World Model for Autonomous Driving

作者:Xiang Li, Pengfei Li, Yupeng Zheng, Wei Sun, Yan Wang, Yilun Chen

机构:Institute for AI Industry Research (AIR), Tsinghua University

原文链接:https://arxiv.org/abs/2502.07309

代码链接:https://github.com/getterupper/PreWorld

1. 导读

了解世界动态对于自动驾驶的规划至关重要。最近的方法试图通过学习3D占用世界模型来实现这一点,该模型基于当前观察来预测未来的周围场景。然而,仍然需要3D占用标签来产生有希望的结果。考虑到3D户外场景的高标注成本,我们提出了一个半监督的以视觉为中心的3D占位世界模型PreWorld,通过一个新颖的两阶段训练范式来利用2D标签的潜力:自我监督的预训练阶段和完全监督的微调阶段。具体而言,在预训练阶段,我们利用属性投影头来生成场景的不同属性场(例如,RGB、密度、语义),从而能够通过体绘制技术从2D标签进行时间监控。此外,我们引入了一个简单而有效的状态条件预测模块,以直接的方式递归预测未来的占用率和自我轨迹。在nuScenes数据集上的大量实验验证了我们方法的有效性和可扩展性,并表明PreWorld在3D占用预测、4D占用预测和运动规划任务上取得了有竞争力的性能。

2. 效果展示

(a)自监督3D占用模型仅使用2D标签作为监督即可进行训练。然而,它缺乏预测未来占用的能力。相比之下,(b)完全监督3D占用世界模型可以预测未来占用,但由于其间接架构(使用冻结的3D占用模型),它依赖于3D占用标签才能获得有意义的结果。为了解决这些挑战,我们的(c)半监督3D占用世界模型结合了2D渲染监督和端到端架构,可以从图像输入中直接预测未来占用,同时利用2D标签

0cc3D-nuScenes验证集上的3D占位预测定性结果。整体结构和场景的细粒度细节分别由橙色框和红色框突出显示。与现有的完全监督方法和自监督方法相比,PreWorld可以获得更好的场景结构和捕捉更精细的局部细节。

3. 主要贡献

-个半监督的以视觉为中心的3D占领世界模型,PreWorld,它在训练期间同时利用2D标签

和3D占用标签。

·一种全新的两阶段培训模式,其有效性和可扩展性已通过广泛的实验得到验证。

一个简单但有效的状态预报模块,能够同时与占用网络进行选择,并基于可视化输入进行直接的未来预测。 推荐课程: 为何BEV和Occupancy撑起了自动驾驶的半边天?

·与SOTA方法相比进行了广泛的实验,证明我们的方法在多个任务中实现了具有竞争力的性能,包括3D占位预测、4D占位预测和运动规划。

4. 方法

我们提出的PreWorld的架构。首先,使用占位网络从多视图图像中提取体积特征。随后,使用历史特征递归预测未来体积特征的状态条件预测块。在自监督预训练阶段,体积特征通过体积渲染技术投影到各种属性字段中,并通过2D标签进行监督。在完全监督微调阶段,属性投影头不再参与计算,通过占位头直接获得占位预测,并由3D占位标签监督。

5. 实验结果

6. 总结

在这篇论文中,我们提出了PreWorld,这是一个半监督的以视觉为中心的3D占位世界模型,用于自动驾驶。我们提出了一种新颖的两阶段训练范式,使得我们的方法可以利用丰富且易于获取的2D标签进行自我监督的预训练。在随后的微调阶段,模型进一步使用3D占位标签进行优化。此外,我们引入了一个简单而有效的状态条件预测模块,解决了现有方法在同时优化占位网络和预测模块时面临的挑战。该块在训练过程中减少了信息损失,同时使模型能够根据视觉输入直接预测未来场景和自我轨迹。通过广泛的实验,我们展示了PreWorld在3D占位预测、4D占位预测和运动规划任务中的稳健性。特别是,我们验证了我们的训练范式的有效性和可扩展性,概述了在自动驾驶场景中可扩展模型训练的可行路径。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。







请到「今天看啥」查看全文