点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:自动驾驶Daily
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
世界模型这么火,为什么在自动驾驶领域还没有落地?
-
自动驾驶世界模型还是拥有非常多的难关,没有被解决。首先最最明显的一个问题就是这个推理的开销。Vista模型在A100上要预测2.5秒的未来的话,它需要大于一分钟的这个推理时间。所以说如何去设计sampling策略,或者说有如何去优化这个模型,这都是值得探讨的问题。
出处:星球内部讨论,文末扫码领取
-
模型的控制能力并没有做到非常完美。然后这是论文中的一个实验,这个图是这么看的,就是这个条状条越短的话说明我们不同,我们对应这个action它的控制能力越强就越短表示控制能力越好。但是你会发现像轨迹这些控制力Vista其实是比较好的。但是像这个command和goal point这些控这些action的控制能力的话,它其实比较差的。这个其实一个可能那边应该是因为我们的action控制的全是从nuScenes上来的对,所以说在nuScenes上它这个command的分布其实是非常不均匀的,大多数都是执行。
世界模型都是用正常的数据进行训练,事故数据很少,那是怎么去泛化到这些事故的场景呢?
因为diffusion model它其实具有一个conversation的能力,它diffusion model它其实是具有组合能力的。所以说随着我们看到足够多的数据之后,它其实是能够涌现出这种生成corner case的能力,就像我刚才展示,比如说不场景像这个第一个go straight,它其实就撞到这个花坛上去了。对,但其实是真实是不会存在,但是因为diffusion model它能够涌现出一些组合的能力,所以说他能知道我这个场景我往前开是怎样。
出处:星球内部讨论,文末扫码领取
当前world model论文展示都是比较简单的场景,在urban密集场景中表现如何?
因为其实像现在大家这些公开模型的话,其实在密集场景失败的可能性肯定会被变高,尤其是这些行人的预测,就是行为预测其实是很难的。我发现有车车多的话其实还是能看。但是行人预测的话,我这里好像没有展示行人的这个对就人的预测还是比较难的。