DriveDreamer4D：首个利用视频生成改善驾驶重建的世界模型方法

自动驾驶之心 · 公众号 · · 2024-10-22 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享 极佳&中科院最新的工作—DriveDreamer4D！ 基于生成的世界模型方案。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『占用网络』 技术交流群

论文作者 | Guosheng Zhao等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

闭环仿真对于推进端到端自动驾驶系统至关重要。当代的传感器仿真方法，如NeRF和3DGS，主要依赖于与训练数据分布紧密一致的条件，这些条件在很大程度上局限于前向驾驶场景。因此，这些方法在渲染复杂的机动动作（如变道、加速、减速）时面临局限性。自动驾驶世界模型的最新进展已经证明了生成多样化驾驶视频的潜力。然而，这些方法仍然局限于2D视频生成，固有地缺乏捕捉动态驾驶环境复杂性所需的时空连贯性。本文介绍了DriveDreamer4D，它利用世界模型先验增强了4D驾驶场景表示。具体来说，我们利用世界模型作为数据机器，基于现实世界的驾驶数据合成新的轨迹视频。值得注意的是，我们明确地利用结构化条件来控制前景和背景元素的时空一致性，因此生成的数据与流量约束密切相关。据我们所知，DriveDreamer4D是第一个利用视频生成模型来改善驾驶场景中4D重建的工作。实验结果表明，DriveDreamer4D显著提高了新轨迹视图下的生成质量，与PVG、S3高斯和可变形GS相比，FID相对提高了24.5%、39.0%和10.5%。此外，DriveDreamer 4D显著增强了驱动代理的时空一致性，这得到了综合用户研究的验证，NTA-IoU度量的相对增加了20.3%、42.0%和13.7%。

总结来说，本文的主要贡献如下：

提出了DriveDreamer4D，这是第一个利用世界模型先验来推进自动驾驶4D场景重建的框架；
NTGM旨在自动生成各种结构化条件，使DriveDreamer4D能够生成具有复杂机动的新颖轨迹视频。通过明确地结合结构化条件，DriveDreamer4D确保了前景和背景元素的时空一致性；
进行了全面的实验，以验证DriveDreamer4D显著提高了新轨迹视点的生成质量，以及驾驶场景元素的时空连贯性。

DriveDreamer4D方法详解

整体架构

DriveDreamer4D的整体流程如图2所示。在上半部，提出了一种新的轨迹生成模块（NTGM），用于调整转向角和速度等原始轨迹动作，以生成新的轨迹。这些新颖的轨迹为提取3D盒子和HDMap细节等结构化信息提供了新的视角。随后，可控视频扩散模型从这些更新的视点合成视频，并结合与修改后的轨迹相关的特定先验。在下半部分，整合了原始和新颖的轨迹视频，以优化4DGS模型。在接下来的部分中，我们将深入研究新轨迹视频生成的细节，然后介绍使用视频扩散先验的4D重建。

新轨迹视频生成

如前所述，传统的4DGS方法在渲染复杂机动动作方面存在局限性，这主要是由于训练数据主要由直接的驾驶场景主导。为了克服这一点，DriveDreamer4D利用世界模型先验来生成不同的视点数据，增强了4D场景表示。为了实现这一目标，我们提出了NTGM，该模型旨在创建新的轨迹作为世界模型的输入，从而能够自动生成复杂的机动数据。NTGM包括两个主要组成部分：（1）新的轨道方案，（2）轨道安全评估。在新的轨迹建议阶段，可以采用文本到轨迹来自动生成各种复杂的轨迹。此外，轨迹可以定制设计以满足特定要求，从而可以根据精确需求生成量身定制的数据。Algo 1中显示了定制设计的轨迹建议（例如变道）和轨迹安全评估的概述。在特定的驾驶场景中，世界坐标系中的原始轨迹可以很容易地获取为。为了提出新的轨迹，将原始轨迹

DriveDreamer4D：首个利用视频生成改善驾驶重建的世界模型方法

正文

写在前面 & 笔者的个人理解

相关工作回顾

驾驶场景表示

世界模型

3D表示的扩散先验

DriveDreamer4D方法详解

整体架构

新轨迹视频生成

请到「今天看啥」查看全文