专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

清华/上海AI Lab/UC/等联合提出 CVT-Occ：利用时间几何对应提高3D占用预测精度的创新方法！

智驾实验室 · 公众号 · · 2024-12-06 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

基于视觉的3D占用预测受到单目视觉在深度估计方面的固有限制的严重影响。本文介绍了一种新的方法CVT-Occ，它通过时间上的几何对应将 Voxel 的时间融合，以提高3D占用预测的准确性。

通过沿着每个 Voxel 的视线样本点，并从历史帧中集成这些点的特征，作者构建了一个成本体积特征图，以改进当前体积特征，从而提高预测结果。

作者的方法利用历史观察的视差线索，并采用数据驱动的方法学习成本体积。

作者在Occ3D-Waymo数据集上通过严格的实验验证了CVT-Occ的有效性，它在3D占用预测方面的性能超过了最先进的方法，且额外计算成本最小。

代码已发布在https://github.com/Tsinghua-MARS-Lab/CVT-Occ。

1 Introduction

基于视觉的3D语义占用预测在3D感知领域迅速发展，得益于其在自动驾驶、机器人技术和增强现实中的关键应用。该任务的目标是从视觉输入中估计3D空间中每个 Voxel 的占用状态和语义标签。

尽管其重要性不言而喻，3D占用预测面临巨大挑战。仅依赖单目视觉时，这些挑战尤为突出，因为从单张图像中估计深度固有的歧义性。虽然立体视觉被提出作为提高深度估计准确性的解决方案[14]，但在实践中应用仍然有限。在自动驾驶车辆和机器人系统中广泛应用立体相机需要进行大量的校准和重新校准，因此不切实际。一种替代且更有前途的方法是采用多视图时间融合，可以利用随时间可用的扩展多视图 Baseline 来增强3D感知任务。

近年来，视觉3D目标检测领域的最新进展表明，将时间观察纳入检测方法有助于提高检测性能[20, 25, 37, 8, 26]。在作者研究中，作者将新兴的时间融合方法识别并分为三个范式，如图1所示。

首先，这两种方法被归类为基于变换的方法。这些方法主要涉及在多个时间实例上，利用惯性测量单元（IMU）获取的相对相机姿态，对Bird's Eye View（BEV）特征图进行对齐。对齐后的特征使用两种主要方法进行集成。第一种方法采用自注意力机制，如图1（a）所示。一种利用这种方法的典型方法是BEVFormer [20]。

另一种方法通过 ConCat 将对齐后的特征进行集成，如图1（b）所示。采用这种方法的典型方法包括BEVDet4D [8]，BEVFormerv2 [37]和PanoOcc [35]。这些方法强调通过 ConCat 然后卷积进行特征融合。尽管它们具有潜力，但这些方法主要以隐式方式利用时间信息，缺乏对时间几何的健壮理解。

因此，它们在充分利用3D空间固有的几何约束方面存在不足。

相比之下，基于成本-体积的方法，如图1中的(c)所示，受到立体匹配技术的启发，例如SOLOFusion [26]，构建一个成本体积从时间序列中的不同视点捕获的图像中。这使得可以利用几何约束来获取深度感知的特征。然而，对于多视视觉任务，图像对的数量会导致在融合更长的时间跨度时间信息时计算开销巨大。

认识到这些方法的局限性，作者提出了一种新颖的方法，如图1中的(d)所示。本文作者介绍了一种名为CVT-Occ的创新性时间融合方法，该方法旨在利用 Voxel 在时间上的几何对应关系，从而提高占用预测的准确性。

作者的方法涉及为每个 Voxel 沿着视线采样点，定义为 Voxel 到摄像机光心的连线，并在基于相对摄像机姿态的历史帧中确定这些点对应的3D位置。然后从历史帧中采样这些点的特征，并将其与当前 Voxel 的特征相集成，构建一个成本体积特征图。该图随后用于优化当前体积的特征，从而提高占用预测。

与图1中的范式（a）和（b）相比，作者提出的CVT-Occ明确地利用了视差线索来优化3D Voxel 深度。与范式（c）不同，作者的方法避免了每对图像的成本体积计算，实现了性能优越且额外计算开销最小。CVT-Occ通过利用历史观测中的固有视差信息，并采用数据驱动的学习方法来计算成本体积而脱颖而出。

作者在Occ3D-Waymo数据集上的实验表明，CVT-Occ实现了最先进的3D占用预测性能。

2 Related Work

3D Occupancy Prediction

3D占用预测的目标是估计3D空间中每个离散 Voxel 的占用情况。这一任务最初源于移动机器人导航领域的占有网格映射（OGM）[24, 28]，其中机器人配备了距离传感器（例如激光雷达）并在静态环境中导航。最近的研究已经转向更通用的场景：它们利用视觉系统在动态环境中进行占用预测。MonoScene[1]使用激光雷达点进行稀疏预测，从3D场景中重构。VoxFormer[16]利用语义标签和单目RGB图像的深度估计进行稠密 Voxel 预测。TPVFormer[11]提出了一种三视角视图分解方法，用于高效进行3D占用预测。OccFormer[40]展示了一种双路径Transformer网络，用于有效处理语义占用预测的3D体积。此外，这些进步还导致了新的基准测试，如视觉3D占用预测[29, 30, 32]和语义场景完成[15]。作者强调，作者提出的这种方法是一个简单且即插即用的模块，可以无缝集成到现有的占用预测 Pipeline 中，显著提高其性能。

Temporal Fusion for 3D Perception

利用时间信息进行占用预测是一种自然策略，因为它为构建几何表示提供了足够的空间信息[25, 36]。在视觉3D目标检测中的时间融合是一种常见实践，即BEV特征对齐。它通过根据不同时间步相对相机姿态的相机视图变换，将过去BEV特征变形到当前时间，从而融合时间信息。已经证明，短期帧可以显著提高3D检测性能。然而，仅仅通过变形和融合增加更多帧，带来的改进是微小的。

最近的工作UniFusion[27]提出了一种新的长时间融合方法。它为时间特征创建“虚拟视图”，仿佛它们当前就在，并直接访问所有有用的历史特征。然而，当帧数增加时，这种方法在计算成本上存在巨大问题。SOLOFusion[25]是一种更高效、更有效的模型，它平衡了分辨率和时间戳，并将时间融合问题转化为时间多视图立体问题。

Stereo Matching and Multi-View Stereo

立体匹配植根于从2D图像特征构建3D代价体积，并预测深度图。最近的工作通过提出相关性基于的代价体积，如GCNet [2]，进一步发展了这一技术。同时，多视图立体方法利用平面扫视体积进行深度图生成。在自动驾驶中，立体匹配的一个最近趋势是关注3D感知[17, 19, 4]。然而，现有的立体匹配工作通常使用立体图像对，而这种方式在处理自动驾驶场景中的多视图和多时间输入时并不适用。

此外，这些方法需要为每对图像生成一个平面扫视体积，导致效率低下。此外，最近的技术进步如OccDepth [23]展示了通过隐式学习立体图像之间的关联性来改进3D深度感知特征融合的潜力。作者提出的Temporal Cost Volume方法，专门针对多视图和多时间数据，提供更有效和高效解决方案。CVT模块的核心创新在于它能够通过聚合信息来构建场景的全面3D表示。

3 Methodology

Problem Setup

给定仅包含RGB图像作为输入，该模型旨在预测在指定体积内的密集语义场景。具体而言，作者将当前时间戳与前一张图像作为输入，即 ,其中表示摄像头的数量。作者的输出是一个位于自车辆在时间戳的坐标系中的 Voxel 网格，其中每个 Voxel 都由一个特定的语义类别（）中的一个占用（表示为），或者为空（表示为）。在这里，表示感兴趣的总类别数量，而 , , 和分别表示网格的长度、宽度和高度。主要目标是训练一个神经网络，使其产生一个逼近 GT 值的语义 Voxel 网格。

值得注意的是，模型必须仅从视觉输入中学习3D几何和语义，而无需借助LiDAR的深度测量。从2D图像中推理3D占用率是一项巨大的挑战，需要设计有效的方法来利用几何约束进行精确几何的学习。

Overall Architecture

在本节中，作者描述了CVT-Occ的全面架构，如图2所示。作者的框架处理多帧、多视图图像，首先通过图像 Backbone 提取多尺度特征。然后，这些从图像空间转换到BEV空间特征，通过BEV编码器进行细化，生成3D体积表示。从图像空间到BEV特征的研究领域有很多。一种工作遵循LSS [26]中提出的提升范式；

他们明确预测深度图，并将多视图图像特征提升到BEV平面。另一种工作继承了DETR3D [34]中从3D到2D Query 的精神；

他们使用可学习 Query 通过交叉注意力机制从图像特征中提取信息。重要的是要强调，作者提出的成本-体积-时间（CVT）模块在从图像到体积空间的不同策略下具有通用性和兼容性。

对于作者进行实验验证，作者采用BEVFormer [20]作为基础来生成3D体积特征。这些特征随后通过CVT模块进行细化和增强，展示了作者在利用时间和空间动态来丰富3D场景理解的有效性和适应性。最后，使用占用解码器生成最终 Voxel 预测结果。

Cost Volume Temporal Module

由于每个像素的直接深度信息不可用，将图像特征转换到3D空间引入了歧义；例如，一个像素可能对应于视线方向上多个 Voxel 。为解决这一挑战，作者提出了一种称为Cost Volume Temporal模块的方法，该方法利用时间数据来推理深度信息并解决歧义。具体而言，作者使用历史和当前的BEV特征构建3D成本体积特征。然后，利用这些成本体积特征计算学习权重，并随后将这些权重应用于当前BEV特征的优化。

3D Volume Features. 作者预定义体积 ,其中分别表示体积空间的尺寸。体积空间中的每个 Voxel 对应于实际世界中的一个边长为米的立方体。默认为，体积空间的重心对应于自动驾驶汽车的位置。对于每个 Voxel ,其对应的3D位置可以通过公式1计算：

BEV特征是 , 其中表示时间戳，是嵌入维度。作者将BEV特征 Reshape 为体积空间作为CVT模块的输入，得到。

构建成本体积特征。考虑到视线的不确定性，对于每个点 , 在当前体积内作者采样多个额外的点。具体而言，作者计算视线方向，该向量是从体积中心到点的向量，然后使用特定步长采样，如公式2所示：

由于这些点都指向图像空间中的同一像素，同一条直线上的点往往具有相似的特征。为了准确区分对应像素的正确位置，作者使用历史BEV特征来获取互补信息。这就得到了作者提出的成本-体积-时间模块的核心见解。将这些点映射到历史坐标系中，确保它们不再处于同一视线上。这种视差提供了历史BEV特征的额外信息，有助于减少当前帧中的深度歧义。投影矩阵可以将点从车辆坐标系转换到全局坐标系。因此，点通过投影矩阵（如公式3所示）投影到个历史帧中：

最后，每个点被转换为 Voxel 坐标，这是方程1的逆过程，并使用双线性插值从相应的BEV特征图采样特征。最终的成本体积特征图，其中表示BEV特征的通道数。

Volume Features Refinement

根据公式4，构建的成本体积特征经过一系列卷积层处理，得到一个输出权重。接下来，一个Sigmoid激活函数将输出权重归一化到范围[0,1]。这些权重直接根据 Voxel 占用状态进行监督：占用 Voxel 的权重被鼓励达到1，而未占用 Voxel 的权重被引导到0。公式4中的表示在时间戳的原始体积特征与学习得到的权重的逐元素乘积。这种监督学习方法产生一个具有 Voxel 感知的体积特征图。学习权重的目标是减小由于深度歧义导致不正确激活区域中 Voxel 特征的影响，同时增强正确识别的 Voxel 的特征。

Occupancy Decoder

在优化 Voxel 特征之后，作者的模型采用一系列反卷积层将其转换为占用特征。占用特征被投影到输出空间，得到

清华/上海AI Lab/UC/等联合提出 CVT-Occ：利用时间几何对应提高3D占用预测精度的创新方法 ！

正文