专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

RenderWorld 带有自监督3D标签的世界模型,利用高斯插值和AM-VAE,GPU显存使用量降低一半 !

智驾实验室  · 公众号  ·  · 2024-10-29 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

从端到端的纯视觉自主驾驶到端,与LiDAR视觉融合相比更具成本效益,同时也比传统方法更可靠。

为了实现经济高效的稳定纯视觉自主驾驶系统,作者提出RenderWorld,一个纯视觉的端到端自主驾驶框架,它使用自监督的高斯基础Img2Occ模块生成3D占用标签,然后通过AM-VAE对标签进行编码,并使用世界模型进行预测和规划。

RenderWorld使用高斯插值来表示3D场景,渲染2D图像大大提高了分割准确性和减少了与NeRF为基础的方法相比的GPU内存消耗。

通过将AM-VAE分别应用于编码空气和非空气,RenderWorld实现了更细粒度的场景元素表示,从而在自回归世界模型驱动的4D占用预测和移动规划方面实现了最先进性能。

I Introduction

随着自动驾驶技术的广泛应用[1, 2, 3],研究行人逐步关注于更优秀的感知和预测方法[4],这与系统的决策能力和鲁棒性密切相关[5, 6]。大多数现有的框架将感知[7],预测和规划分别实现[8]。最常用的感知方法是使用视觉和激光雷达融合的3D目标检测,使得模型能够更好地预测未来场景并执行运动规划。由于大多数3D目标检测方法无法在环境中获取细粒度信息,因此在后续的模型中规划[13]方面不具备鲁棒性,这会影响系统的安全性。当前的感知方法主要利用激光雷达和相机[16],然而激光雷达的高成本和多模态融合的计算需求给自动驾驶系统的实时性能和鲁棒性带来了挑战。

在本论文中,作者引入了 RenderWorld ,这是一个预测和运动规划的自动驾驶框架,它使用由基于高斯分布的Img2Occ模块生成的3D占用标签进行训练。RenderWorld提出了一个自监督Img2Occ模块,其中使用了高斯插值[17],它基于2D多视图深度和语义图像生成用于世界模型所需的3D占用标签。

为了使世界模型更好地理解由3D占用表示的场景,作者在基于向量量化的变分自编码器(VQ-VAE)[18]之上提出了空气 Mask 变分自编码器(AM-VAE)。通过提高场景表示的粒度,这改进了世界模型的推理能力。

为了验证RenderWorld的有效性和可靠性,作者在NuScenes[19]上分别评估了3D占用生成和运动规划。

总的来说,作者的贡献主要如下:

  1. 作者提出了RenderWorld,一个仅使用标记2D图像的纯2D自动驾驶框架,用于训练一个基于高斯分布的占用预测模块(Img2Occ),用于生成世界模型所需的相关3D标签。
  2. 为提高空间表示能力,作者引入了AM-VAE,它提高了世界模型的预测和规划,同时降低了通过分别编码空气和非空气体块的内存消耗。

II Related Work

3D Occupancy Prediction

3D占位符正受到越来越多的关注,因为它已经成为LiDAR感知的有用替代品 [20]。大多数先前的方法 都使用3D占位符真实值进行监督,但是标注这种真实值具有挑战性。随着神经辐射场(NeRF) [24]的广泛采用,一些方法 尝试使用2D深度和语义标签进行训练。但使用连续隐式神经场预测占位符概率和语义信息往往会导致高内存成本。最近,GaussianFromer [30] 利用稀疏高斯点作为一种减少GPU消耗的方法来描述3D场景,GaussianOcc [31] 利用一个6D位姿网络来消除对真实姿态的依赖,但两者都遭受了整体分割精度显著下降的问题。在作者的工作中,作者采用基于 Anchor 点的稀疏高斯初始化方法来高斯规范化 Voxel ,并使用密度更高的稀疏高斯点来表示3D场景,同时实现较高的分割精度,同时避免NeRF基方法中基于射线采样的过度内存消耗。

World Model in Autonomous Driving

世界模型[32]通常用于预测未来帧和辅助机器人做出决策[33]。随着端到端自动驾驶[8、34]的逐渐演进,世界模型也被应用于预测未来场景和决策制定[35]。与传统的自动驾驶方法[36、37]不同,世界模型方法将感知、预测和决策制定相结合。许多现有的方法将摄像头-激光雷达数据(camera-LiDAR)融合到世界模型中,并用于预测[38、39]和做出运动规划[40]。其中,OccWorld[41]提出利用3D占用率作为世界模型的输入。然而,OccWorld在利用纯2D输入方面效果较弱,由于在编码过程中信息损失,准确预测未来场景的能力受到限制。因此,作者设计了一个Img2Occ模块,将2D标签转换为3D占用率标签,以提高世界建模能力。

III Methodology

在本节中,作者描述了RenderWorld的整体实现。首先,作者提出了一个Img2Occ模块,用于占用率预测和3D占用率标签的生成(第三部分A)。然后,作者介绍了一种基于空气 Mask 变分自编码器(AM-VAE)的模块,用于优化占用率表示并提高数据压缩效率(第三部分B)。最后,作者详细阐述了如何将世界模型集成到4D场景演化的精确预测中(第三部分C)。

作者的模型旨在以高精度模拟复杂的三维场景,并能在各种场景中自适应地捕获和理解场景中的各个物体和实体。在具体实现中,作者利用了深度学习和计算机视觉技术,例如卷积神经网络、自编码器等,以实现对场景中物体的精确识别和预测。作者还考虑到了场景的动态性和随机性,通过采用多智能体系统和随机过程建模等方法,更好地模拟了场景中的物体行为和相互作用。

总的来说,作者的模型能够实现对复杂三维场景的高效、准确的模拟和预测,从而在虚拟现实、游戏开发、设计等领域具有广泛的应用前景。

3D Occupancy prediction with Multi-frame 2D Labels

为了实现3D语义占位预测和未来的3D占位标签生成,作者设计了一个Img2Occ模块,每个高斯点x由在世界空间中的全3D协方差矩阵 和中心位置 表示,并且每个点的颜色由该位置的语义标签决定。

直接优化 可能导致不可行的矩阵,因为它必须是非负定的半定矩阵。为了确保 的有效性,将其分解为缩放矩阵 和旋转矩阵 以描述3D高斯椭球的几何:

然后将 3D 高斯分布投影到 2D 进行渲染,通过计算摄像空间协方差矩阵

其中 是投影变换的仿射近似雅可比矩阵, 是视角变换。然后可以计算出每个像素的语义 / 深度:

其中 是渲染的语义 / 深度, 是评估的 2D 高斯投影及其对应的不透明度。

计算 GT 深度和渲染深度的差值,作者使用皮尔逊相关系数,它能够测量遵循以下函数的 2D 深度图的分布差异:

其中 是 GT 深度图像, 是渲染深度图像。

最后,作者构建了交叉熵损失 和深度监督 的组合损失函数,总损失可以计算如下:

利用经过良好训练的预训练权重,作者生成了3D占用率标签,然后将其输入到随后的AM-VAE模块。

Air Mask Variational Autoencoder (AM-VAE)

传统变分自动编码器(VAEs)无法捕捉非空气单元的特定特征,这阻碍了模型以细粒度表示场景元素的能力。为解决这个问题,作者提出了空气 Mask 变分自动编码器(AM-VAE),这是一个新颖的VAE,它涉及到训练两个独立的矢量量化的变分自动编码器(VQ-VAE)[18]分别来编码和解码空气和非空气单元。

假设 表示输入的占位表示,而 分别表示空气和非空气单元。作者首先使用一个三维卷积神经网络来编码占位数据,输出是一个连续的潜在空间表示,称为 。编码器 将输入 映射到潜在空间 。然后,作者使用两个潜在变量 分别表示空气和非空气单元:

每个编码的潜在变量 都使用 learnable codebook 来获得离散标记,然后用与其最相似的代码表条目替换,再输入到解码器中。这个过程可以表示为:

然后,解码器 从有量化的潜在变量 中重构输入的占位表示:

为了方便在占用表示中分离空气和非空气元素,作者定义 为非空气类别的集合。然后,在修改后的占用表示中,空气和非空气的指示函数可以定义如下:

修改后的空气占用 和非空气占用 可以由以下方程给出:

为了重构原始占用表示,作者使用一个







请到「今天看啥」查看全文