自驾场景的可控生成和长时序生成?这个模型全都要!
——港科大和地平线联合提出 DrivingWorld:基于视频 GPT 构建自动驾驶世界模型
DrivingWorld 的主要作者是来自香港科技大学和地平线公司的研究团队,他们专注于世界模型和自动驾驶技术的研究,力求在这两个领域做出更多的贡献。
https://arxiv.org/abs/2412.19505代码地址:
https://github.com/YvanYin/DrivingWorld背景介绍
世界模型(World Model) 是一种可以模拟世界动态的模型,能够基于过去的观测实现对未来状态的预测,因此被视为实现 AGI 的关键途径。世界模型在自动驾驶领域展现了巨大的潜力,不仅具备对环境和驾驶状态的深刻理解,还为未来轨迹预测与自动驾驶决策提供了重要支持。
然而,要通过 World Model 实现高逼真度的驾驶场景生成并非易事。香港科技大学与地平线联合推出的基于自回归架构的 DrivingWorld 模型,为构建精准的自动驾驶世界模型带来了全新突破。
为什么世界模型要采用自回归模型?
同样是输出未来的视频,为什么不采用扩散生成模型(Diffusion Model),而是采用自回归模型?为了回答这个问题,小编向GPT-4o询问了这个问题。
如何实现这一步呢?
美国知名公司 Wayve 率先展示了针对自动驾驶的世界模型 GAIA-1。该模型采用了自回归路线,但是由于其采用的传统 GPT 框架缺乏空间与时间动态建模能力,其生成视频质量与时间都有很大提升空间。
为解决这个问题,DrivingWorld 创新性地引入空间-时间先解耦后融合的机制,提出了一种基于 Next-State 自回归式框架的方法,用于实现超长时序视频预测和可控的视频生成。尽管相关领域已有一些研究,但是 DrivingWorld 在视频生成长度方面仍然取得了明显突破。4.1 长时序生成
以下展示了一个长时序视频生成的示例。DrivingWorld 在不同帧之间能够捕捉到连贯的 3D 场景结构。
在生成长序列时,模型经常会因为误差积累导致显著的 drift 问题。DrivingWorld 引入了一种有效的 mask token 策略,可以缓解 drift 的影响,从而提升生成质量。
4.3 生成质量评估
DrivingWorld 与现有的 SOTA 方法在 NuScenes 验证集上进行了性能比较。其中,蓝色表示 NuScenes 数据被包含在模型的训练集中,橙色则代表 zero-shot 测试结果。“w/o P” 指未使用私有数据进行训练的情况。具体对比结果如下:
从结果可以看出,DrivingWorld 模型不仅能够生成更长的视频序列(最长达 40s / 400 帧),同时在 FID 和 FVD 上也展现出了较强的竞争力。
4.4.1 可控生成
展望未来,DrivingWorld 还有很大的发展潜力。DrivingWorld 的研究团队计划进一步融入更多模态信息,如车辆传感器数据、地图信息等,并整合多视图输入,如不同角度的摄像头画面。
通过全方位融合多模态和多视角数据,有望进一步提升模型在复杂驾驶环境下的理解能力、动作控制精度以及视频生成的准确性,从而推动自动驾驶系统整体性能和可靠性迈向新的高度,为自动驾驶技术的广泛应用奠定坚实基础。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧