专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

世界模型和扩散模型这么火，为什么在自动驾驶领域还没有落地？

计算机视觉工坊 · 公众号 · · 2024-10-23 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：自动驾驶Daily

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

世界模型这么火，为什么在自动驾驶领域还没有落地？

自动驾驶世界模型还是拥有非常多的难关，没有被解决。首先最最明显的一个问题就是这个推理的开销。Vista模型在A100上要预测2.5秒的未来的话，它需要大于一分钟的这个推理时间。所以说如何去设计sampling策略，或者说有如何去优化这个模型，这都是值得探讨的问题。

出处：星球内部讨论，文末扫码领取

模型的控制能力并没有做到非常完美。然后这是论文中的一个实验，这个图是这么看的，就是这个条状条越短的话说明我们不同，我们对应这个action它的控制能力越强就越短表示控制能力越好。但是你会发现像轨迹这些控制力Vista其实是比较好的。但是像这个command和goal point这些控这些action的控制能力的话，它其实比较差的。这个其实一个可能那边应该是因为我们的action控制的全是从nuScenes上来的对，所以说在nuScenes上它这个command的分布其实是非常不均匀的，大多数都是执行。

世界模型都是用正常的数据进行训练，事故数据很少，那是怎么去泛化到这些事故的场景呢？

因为diffusion model它其实具有一个conversation的能力，它diffusion model它其实是具有组合能力的。所以说随着我们看到足够多的数据之后，它其实是能够涌现出这种生成corner case的能力，就像我刚才展示，比如说不场景像这个第一个go straight，它其实就撞到这个花坛上去了。对，但其实是真实是不会存在，但是因为diffusion model它能够涌现出一些组合的能力，所以说他能知道我这个场景我往前开是怎样。

出处：星球内部讨论，文末扫码领取

当前world model论文展示都是比较简单的场景，在urban密集场景中表现如何？

因为其实像现在大家这些公开模型的话，其实在密集场景失败的可能性肯定会被变高，尤其是这些行人的预测，就是行为预测其实是很难的。我发现有车车多的话其实还是能看。但是行人预测的话，我这里好像没有展示行人的这个对就人的预测还是比较难的。

这里给大家推荐一门我们最新的课程 《 扩散模型入门教程：数学原理、方法与应用 》：

世界模型和扩散模型这么火，为什么在自动驾驶领域还没有落地？

正文

请到「今天看啥」查看全文