专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
刀法研究所  ·  从脸到头发,4000字详解且初跨品类造爆品的秘密 ·  13 小时前  
新北方  ·  痛心!下江救人的“白龙马”不幸离世 ·  2 天前  
新北方  ·  快来集合!今晚的元宵节怎么“闹”? ·  2 天前  
话沈阳  ·  沈阳元宵节灯会、烟火秀来了! ·  2 天前  
话沈阳  ·  沈阳元宵节灯会、烟火秀来了! ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

世界模型和扩散模型这么火,为什么在自动驾驶领域还没有落地?

计算机视觉工坊  · 公众号  ·  · 2024-10-23 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:自动驾驶Daily

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

世界模型这么火,为什么在自动驾驶领域还没有落地?

  1. 自动驾驶世界模型还是拥有非常多的难关,没有被解决。首先最最明显的一个问题就是这个推理的开销。Vista模型在A100上要预测2.5秒的未来的话,它需要大于一分钟的这个推理时间。所以说如何去设计sampling策略,或者说有如何去优化这个模型,这都是值得探讨的问题。

出处:星球内部讨论,文末扫码领取

  1. 模型的控制能力并没有做到非常完美。然后这是论文中的一个实验,这个图是这么看的,就是这个条状条越短的话说明我们不同,我们对应这个action它的控制能力越强就越短表示控制能力越好。但是你会发现像轨迹这些控制力Vista其实是比较好的。但是像这个command和goal point这些控这些action的控制能力的话,它其实比较差的。这个其实一个可能那边应该是因为我们的action控制的全是从nuScenes上来的对,所以说在nuScenes上它这个command的分布其实是非常不均匀的,大多数都是执行。

世界模型都是用正常的数据进行训练,事故数据很少,那是怎么去泛化到这些事故的场景呢?

因为diffusion model它其实具有一个conversation的能力,它diffusion model它其实是具有组合能力的。所以说随着我们看到足够多的数据之后,它其实是能够涌现出这种生成corner case的能力,就像我刚才展示,比如说不场景像这个第一个go straight,它其实就撞到这个花坛上去了。对,但其实是真实是不会存在,但是因为diffusion model它能够涌现出一些组合的能力,所以说他能知道我这个场景我往前开是怎样。

出处:星球内部讨论,文末扫码领取

当前world model论文展示都是比较简单的场景,在urban密集场景中表现如何?

因为其实像现在大家这些公开模型的话,其实在密集场景失败的可能性肯定会被变高,尤其是这些行人的预测,就是行为预测其实是很难的。我发现有车车多的话其实还是能看。但是行人预测的话,我这里好像没有展示行人的这个对就人的预测还是比较难的。

这里给大家推荐一门我们最新的课程 扩散模型入门教程:数学原理、方法与应用







请到「今天看啥」查看全文