万物皆可高斯！清华最新GaussianAD：以高斯为中心的端到端自动驾驶，完爆当前SOTA！

自动驾驶之心 · 公众号 · · 2024-12-18 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心为大家分享清华大学&理想汽车最新的工作—GaussianAD！基于Gaussian的端到端自动驾驶。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『端到端自动驾驶』 技术交流群

论文作者 | Wenzhao Zheng等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。大多数现有方法采用密集表示（如鸟瞰图）或稀疏表示（如实例框）进行决策，这会在全面性和效率之间进行权衡。本文探索了一个以高斯为中心的端到端自动驾驶（GaussianAD）框架，并利用3D语义高斯来广泛而稀疏地描述场景。我们用均匀的3D高斯分布初始化场景，并使用环视图像逐步细化它们，以获得3D高斯场景表示。然后，我们使用稀疏卷积来有效地执行3D感知（例如，3D检测、语义图构建）。我们用动态语义预测高斯模型的3D流，并相应地规划自我轨迹，以预测未来的场景。我们的GaussianAD可以通过可选的感知标签以端到端的方式进行训练。在广泛使用的nuScenes数据集上进行的广泛实验验证了我们的端到端GaussianAD在各种任务上的有效性，包括运动规划、3D占用预测和4D占用预测。

论文链接：https://arxiv.org/abs/2412.10371v1

本文提出了一个以高斯为中心的自动驾驶（GaussianAD）框架作为肯定答案，如图1所示。我们使用来自2D图像的稀疏3D语义高斯集作为场景表示。尽管存在稀疏性，但它受益于高斯混合的通用近似和显式3D结构带来的细粒度建模，这有助于各种下游任务。我们进一步从3D高斯表示中探索感知、预测和规划。对于感知，我们将3D高斯视为语义点云，并采用稀疏卷积和稀疏预测头来有效地处理3D场景。我们提出了3D高斯流来全面明确地仿真场景演变，我们预测每个高斯流的未来位移。然后，我们整合所有可用信息，相应地规划自我轨迹。由于3D高斯表示的明确性，我们可以使用仿射变换直接计算自车观察到的预测未来场景。我们将预测场景与地面实况场景观测进行比较，作为预测和规划的明确监督。据我们所知，GaussianAD是第一个探索以视觉为中心的端到端自动驾驶显式稀疏点架构的公司。我们在nuScenes数据集上进行了广泛的实验，以评估所提出的高斯中心框架的有效性。实验结果表明，我们的GaussianAD在高效的端到端运动规划方面取得了最先进的结果。

GaussianAD方法详解

3D Scene Representation Matters for Driving

自动驾驶旨在根据一系列场景观察{o}产生安全一致的控制信号（例如加速器、制动器、转向）。虽然场景观测可以从多个传感器（如摄像头和激光雷达）获得，但由于其高信息密度和低传感器成本，我们主要针对周围摄像头的基于视觉的自动驾驶。

假设控制器性能良好，大多数自动驾驶模型主要侧重于学习从当前和历史观测值{o}到未来自车轨迹{w}的映射f：

传统的自动驾驶方法将f分解为感知、预测和规划模块，并在连接之前分别对其进行训练：

这些模块的单独训练进一步加剧了这个问题，因为不同的任务侧重于提取不同的信息。提供给规划模块的不全面信息可能会影响自动驾驶模型的决策过程。这推动了从模块化框架到端到端框架工作的转变，该框架可区分地连接并共同学习感知、预测和规划模块：

场景表示r在整个模型中传递信息，因此r的选择对端到端系统的性能至关重要。由于自动驾驶需要在3D空间中做出决策，场景表示应该是3D结构的，并包含从输入图像推断出的3D结构信息。另一方面，3D空间通常是稀疏的，导致在设计r时在全面性和效率之间进行权衡。为了全面性，传统的鸟瞰图（BEV）表示在地图视图中使用密集的网格特征，并压缩高度维度以减少冗余。后续方法进一步探索更密集的表示，如体素或三视角视图（TPV），以捕获更详细和细粒度的3D信息。为了提高效率，最近的方法采用了稀疏查询，并专注于对实例框和映射元素进行建模，这是决策中最重要的因素。尽管如此，被丢弃的信息仍然很重要（例如，不规则的障碍物、交通灯、人体姿势），并且与端到端自动驾驶的理念（即全面的信息流）相矛盾。本文探讨了3D高斯分布作为一种全面而稀疏的场景表示，并提出了一个用于端到端感知、预测和规划的完全稀疏框架，如图2所示。

万物皆可高斯！清华最新GaussianAD：以高斯为中心的端到端自动驾驶，完爆当前SOTA！

正文

写在前面 & 笔者的个人理解

相关工作回顾

GaussianAD方法详解

3D Scene Representation Matters for Driving

Gaussian-Centric Autonomous Driving

请到「今天看啥」查看全文