专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

英伟达提出并开源EmerNeRF：全面基于NeRF的自动驾驶仿真框架，无需分割

学姐带你玩AI · 公众号 · · 2024-05-06 18:22

正文

来源：投稿作者：橡皮
编辑：学姐

论文链接：https://arxiv.org/abs/2311.02077

项目主页：https://github.com/NVlabs/EmerNeRF

摘要：

我们提出了EmerNeRF，这是一种简单而强大的方法，用于学习动态驾驶场景的时空表示。EmerNeRF 以神经领域为基础，通过自引导同时捕获场景几何、外观、运动和语义。 EmerNeRF 取决于两个核心组件：首先，它将场景分层为静态和动态字段。 这种分解纯粹来自自我监督，使我们的模型能够从通用的、野外的数据源中学习。 其次，EmerNeRF从动态场参数化诱导流场，并利用该流场进一步聚合多帧特征，放大动态物体的渲染精度 。将这三个领域（静态、动态和流）耦合起来，使 EmerNeRF 能够自给自足地表示高度动态的场景，而无需依赖地面实况对象注释或预训练模型来进行动态对象分割或光流估计。我们的方法在传感器模拟中实现了最先进的性能，在重建静态（+2.93 PSNR）和动态（+3.70 PSNR）场景时显着优于以前的方法。此外，为了支持 EmerNeRF 的语义泛化，我们将 2D 视觉基础模型特征提升到 4D 时空，并解决现代 Transformers 中的一般位置偏差，显着提升 3D 感知性能（例如，占用预测精度平均相对提高 37.50%）。最后，我们构建了一个多样化且具有挑战性的 120 序列数据集，以在极端和高动态设置下对神经场进行基准测试。

1.引言

感知、表示和重建动态场景对于自主代理理解环境并与其交互至关重要。当前的方法主要使用专门用于识别和跟踪静态障碍物和动态对象的组件来构建自定义管道。然而，此类方法需要使用大量标记数据来训练每个组件，并设计复杂的机制来组合跨组件的输出。为了表示静态场景，利用神经辐射场 (NeRF) 的方法见证了计算机图形、机器人和自动驾驶领域的寒武纪大爆发，因为它们在估计 3D 几何和外观方面具有强大的性能。然而，如果没有明确的监督，NeRF 就会在充满快速移动物体的动态环境中挣扎，例如城市场景中的车辆和行人。在这项工作中，我们解决了这一长期存在的挑战，并开发了一种自我监督技术来构建动态场景的 4D（时空）表示。

图 1：EmerNeRF 有效地重建了照片般逼真的动态场景 (b)，将它们分为明确的静态 (c-d) 和动态 (e-f) 元素，所有这些都是通过自我监督实现的。值得注意的是，(g) 场景流是从 EmerNeRF 中产生的，没有任何明确的流监督。此外，EmerNeRF 可以解决在视觉基础模型 (h, j) 中观察到的有害位置嵌入 (PE) 模式，并将干净、无 PE 的特征提升到 4D 空间 (i)。

我们考虑一种常见的设置，其中配备多个传感器（例如相机、激光雷达）的移动机器人在大型动态环境（例如附近的街道）中导航。根本性的挑战是仅通过稀疏、瞬态的观测来构造一个可扩展的 4D 表示，即通过一次体积遍历来重建整个 4D 时空体积。不幸的是，这种设置挑战了 NeRF 的多视图一致性假设——时空体积中的每个点只会被观察一次。最近的工作试图通过使用神经场和网格表示的组合分别对静态场景组件（例如建筑物和树木）和动态对象进行建模来简化问题。这种分解可以利用多时间步观察来监督静态组件，但通常需要昂贵的地面实况注释来分割和跟踪动态对象。此外，该领域的先前工作还没有明确地对动态对象的时间对应进行建模，这是随着时间的推移积累稀疏监督的先决条件。总体而言，学习动态场景的 4D 表示仍然是一项艰巨的挑战。

为此， 我们提出了 EmerNeRF，一种用于构建 4D 神经场景表示的自监督方法。 如图 1 所示，EmerNeRF 解耦静态和动态场景组件并估计 3D 场景流——值得注意的是，所有这些都来自自我监督。在较高层面上，EmerNeRF 通过密度正则化目标构建混合静态动态世界表示，仅在必要时（即，当点与动态对象相交时）生成动态对象的密度。这种表示使我们的方法能够捕获动态组件并利用多时间步观察来自我监督静态场景元素。为了解决动态组件缺乏交叉观察一致性的问题，我们要求 EmerNeRF 预测 3D 场景流并使用它们来聚合时间位移的特征。有趣的是，EmerNeRF 估计场景流的能力是从这个过程中自然产生的，无需任何明确的流监督。最后，为了增强场景理解，我们将特征从预先训练的 2D 视觉基础模型（例如 DINOv1、DINOv2）“提升”到 4D 时空。在此过程中，我们观察并纠正了与基于 Transformer 的基础模型相关的挑战：位置嵌入 (PE) 模式（图 1 (h)）。正如我们将在第 4.3 节中展示的，有效利用这些通用特征极大地提高了 EmerNeRF 的语义理解并实现了少量自动标记。

我们利用穿越不同城市环境的自动驾驶车辆 (AV) 收集的传感器序列来评估 EmerNeRF。一个关键的挑战是，当前的自动驾驶数据集严重不平衡，包含许多简单场景，而动态对象很少。为了促进重点实证研究并支持该主题的未来研究，我们提出了 NeRF On-TheRoad (NOTR) 基准，这是来自 Waymo 开放数据集的 120 个驾驶序列的平衡子样本，包含不同的视觉条件（照明、天气和曝光）和具有挑战性的动态场景。在此基准上，EmerNeRF 在场景重建方面显着优于先前最先进的基于 NeRF 的方法2.93静态和动态场景的 PSNR 分别为 3.70 和 3.70，动态新颖视图合成的 PSNR 分别为 2.91。对于场景流估计，EmerNeRF 在兴趣指标方面优于 Li 等人42.16%。此外，相对于使用原始的、充满 PE 模式的特征进行语义占用预测，删除 PE 模式平均提高了 37.50%。

贡献。 我们的主要贡献有四个方面：（1）我们引入了 EmerNeRF，一种新颖的 4D 神经场景表示框架，擅长应对具有挑战性的自动驾驶场景。EmerNeRF 通过自我监督执行静态-动态分解和场景流估计。（2）一种解决 Vision Transformers 位置嵌入模式不良影响的简化方法，可立即应用于其他任务。（3）我们引入NOTR数据集来评估不同条件下的神经领域并促进该领域的未来发展。（4）EmerNeRF 在场景重建、新颖视图合成和场景流估计方面实现了最先进的性能。

2.相关工作

使用 NeRF 进行动态场景重建。 最近的作品采用 NeRF来适应动态场景。早期的动态视图合成方法依赖于从不同视点录制的多个同步视频，限制了它们在现实世界中的应用。自动驾驶和机器人技术。最近的方法，例如 Nerfies和 HyperNeRF，已经成功地使用单个相机实现动态视图合成。然而，它们依赖于一个严格的假设，即所有观测值都可以通过变形映射回规范参考空间，通常从第一个时间步构建。这种假设在驾驶中并不成立，因为物体可能不会完全出现在任何单个帧中，并且可以不断地进入和退出场景。

与我们的工作特别相关的是 D2NeRF、SUDS和 NeuralGroundplans等方法。这些方法还将 4D 场景划分为静态和动态组件。但D2NeRF由于对超参数敏感且容量不足，在户外场景中表现明显不佳；NeuralGroundplan 依靠来自不同视点的同步视频来推理动态；SUDS 是为多遍历驱动日志而设计的，很大程度上依赖于预先训练的模型导出的精确光流，并且由于其昂贵的基于流的扭曲损失而导致高昂的计算成本。相比之下，我们的方法可以从安装在自动驾驶车辆上的传感器捕获的单次遍历日志中重建准确的 4D 场景表示。EmerNeRF 摆脱了预先训练的流模型的限制，利用并完善了自己的内在流预测，从而实现了自我改进的循环。

AV 数据的 NeRF。 从收集的驾驶日志中创建高保真神经模拟对于自动驾驶社区至关重要，因为它有助于各种算法的闭环训练和测试。除了 SUDS之外，人们对从驾驶日志重建场景越来越感兴趣。特别是，最近的方法在静态场景方面表现出色，但在动态对象方面面临挑战。虽然 UniSim和 NSG等方法可以处理动态对象，但它们依赖于地面实况注释，由于获取此类注释的成本较高，因此它们的可扩展性较差。相比之下，我们的方法纯粹通过自我监督实现了高保真模拟结果，提供了可扩展的解决方案。

增强 NeRF。 NeRF 方法通常通过外部模型输出进行增强，以纳入附加信息。例如，结合场景流的方法通常依赖于现有的光流模型进行监督。它们通常需要循环一致性测试来过滤掉不一致的流估计；否则，优化过程很容易失败。神经场景流先验 (NSFP)是一种最先进的流估计器，它优化神经网络来估计每个时间步的场景流（最小化倒角损失）。这种按时间步长的优化使得 NSFP 的成本过高。相比之下，我们的 EmerNeRF 不需要预先训练的光流模型或整体几何损失。相反，我们的流场仅受场景重建损失的监督，并且流估计能力自行出现。最近，诸如语义标签或基础模型特征向量之类的 2D 信号已被提炼到 3D 空间中，从而实现语义理解任务。在这项工作中，我们同样将视觉基础模型特征提升到 4D 空间，并展示它们在少样本感知任务中的潜力。

3.自监督时空神经场

由于观察的稀疏性和获取地面实况注释的成本，使用多传感器机器人学习动态环境的时空表示具有挑战性。为此，我们的设计选择源于以下关键原则：（1）完全通过自我监督学习场景分解，并避免使用任何地面实况注释或预训练模型进行动态对象分割或光流。(2) 通过场景流对跨时间的动态元素对应关系进行建模。(3) 获得相辅相成的表示：静态-动态分解和流估计可以相互受益。(4) 通过利用特征提升和蒸馏来改进场景表示的语义，从而实现一系列感知任务。

建立了几个设计原则后，我们现在可以描述 EmerNeRF，这是一种有效表示静态和动态场景组件的自监督方法。首先，§3.1 详细介绍了 EmerNeRF 如何构建具有静态和动态场的混合世界表示。然后，§3.2 解释了 EmerNeRF 如何利用涌现流场来聚合随时间变化的时间特征，进一步改进其动态分量的表示。§3.3 描述了将语义特征从预训练的 2D 模型提升到 4D 时空，增强了 EmerNeRF 的场景理解。最后，§3.4 讨论了训练期间最小化的损失函数。

图2:EmerNeRF概述。(a) EmerNeRF由静态、动态和流场(S, D, V)组成，这些场以空间查询x或时空查询(x, t)作为输入，生成静态(特征g′D，密度σs)对或动态(特征g′D，密度σd)对。值得注意的是，我们使用正向和反向流(vf和vb)从附近的时间特征g t - 1d, g t d和g t+ 1d生成时间聚合特征g ' d。这些特征(连同视图方向d)被共享的颜色头消耗，它独立地预测静态和动态颜色cs和cd。阴影头从动态特征中预测阴影比率ρ。(b) EmerNeRF将聚合特征渲染为2D，并去除不需要的位置编码模式(通过一个可学习的PE映射，然后是一个轻量级PE头)。

3.1场景表示

场景分解。 为了实现高效的场景分解，我们将 EmerNeRF 设计为混合时空表示。它将 4D 场景分解为静态字段 S 和动态字段 D，这两个字段分别由可学习哈希网格 Hs 和 Hd 参数化。这种解耦为时间独立特征 hs = Hs(x) 和时变特征 hd = Hd(x, t) 提供了灵活且紧凑的 4D 场景表示，其中 x = (x, y, z) 是查询的 3D 位置point 和 t 表示其时间步长。这些特征通过轻量级 MLP（gs 和 gd）进一步转换为 gs 和 gd，并用于预测每点密度 σs 和 σd：

多头预测。 EmerNeRF 使用单独的头进行颜色、天空和阴影预测。为了最大限度地利用静态分支的密集自监督，静态和动态分支共享相同的颜色头 MLPcolor。该颜色头以 (gs, d) 和 (gd, d) 作为输入，并输出静态和动态项目的每点颜色 cs 和 cd，其中 d 是标准化视图方向。由于天空的深度不确定，我们遵循 Rematas 等人的做法，使用单独的天空头从频率嵌入视图方向 γ(d) 预测天空的颜色，其中 γ(·) 是频率基于位置的嵌入函数，如 Mildenhall 等人中所述。最后，如 Wu 等人中所述，我们使用阴影头 MLPshadow 来描绘动态物体的阴影。它为动态对象输出标量 ρ ∈ [0, 1]，调制静态场预测的颜色强度。总的来说，我们有：

渲染。 为了实现高效渲染，我们使用基于密度的权重来组合静态场和动态场的结果：

为了渲染像素，我们使用 K 个离散样本 {x1,... , xK} 沿其光线估计颜色积分。最终输出由下式给出：

其中 Ti = 串 i−1 j=1(1 − αj ) 是累积透射率，αi = 1 − exp(−σi(xi+1 − xi)) 是分段不透明度。

动态密度正则化。为了促进静态-动态分解，我们利用了我们的世界主要是静态的事实。我们通过最小化动态密度 σd 的期望来正则化动态密度，这促使动态场仅根据需要产生密度值：

3.2紧急场景流

场景流估计。 为了捕获动态对象之间的显式对应关系并提供聚合临时位移特征的链接，我们引入了一个额外的场景流场，该场由哈希网格 V := Hv(x, t) 和流预测器 MLPv 组成。该流场将时空查询点 (x, t) 映射到流向量 v ∈ R 3 ，该流向量将查询点变换到下一个时间步中的位置，由下式给出：

在实践中，我们的流场预测了向前流动vf和向后流动vb，从而得到每个点的6维流矢量。

多帧特征集成。 接下来，我们使用预测场景流提供的链接来整合来自附近时间步长的特征，使用简单的加权求和:

若无特殊说明，流场使能时默认使用g′d（代替式（2）和式（3）中的gd）。该特征聚合模块实现了三个目标：1）它将流场与场景重建损失（例如 RGB 损失）连接起来进行监督，2）它整合特征，对时间属性进行去噪以实现准确的预测，3）通过其时间相关特征的共享梯度，通过共享知识提高各个点的质量。

新兴能力。 我们不使用任何显式的流监督来指导 EmerNeRF 的流估计过程。相反，这种能力是从我们的时间聚合步骤中产生的，同时优化场景重建损失（§3.4）。我们的假设是，只有时间一致的特征才能从多帧特征集成中受益，并且这种集成间接驱动场景流场走向最佳解决方案——预测所有点的正确流。我们随后在附录 C.2 中进行的消融研究证实了这一点：当时间聚合被禁用或这些附近特征的梯度停止时，流场无法学习有意义的结果。

3.3ViT特征提升

虽然 NeRF 擅长生成高保真颜色和密度场，但它们缺乏传达语义内容的能力，限制了它们在语义场景理解方面的实用性。为了弥补这一差距，我们将 2D 基础模型特征提升到 4D，从而实现关键的自动驾驶感知任务，例如语义占用预测。尽管之前的工作可能提出了一种简单的方法，但由于位置嵌入（PE），直接从最先进的视觉变换器（ViT）模型中提升特征隐藏了复杂性。变压器模型（图 1 (h-j)）。在接下来的部分中，我们将详细介绍如何使用特征重建头增强 EmerNeRF，发现 Transformer 模型中的有害 PE 模式，并随后缓解这些问题。

特征重建头。 与颜色头类似，我们结合了特征头 MLPfeat 和特征天空头 MLPfeat sky 来预测每点特征 f 和天空特征 fsky，由下式给出：

与颜色头类似，我们在静态和动态分支之间共享特征头。渲染这些特征类似地遵循方程（5），由下式给出：

位置嵌入模式。 当使用当前最先进的基础模型时，特别是 DINOv2（图 1 (h)），我们观察到明显且不受欢迎的 PE 模式。无论 3D 视点如何变化，这些图案在图像中保持固定，从而破坏了 3D 多视图一致性。我们的实验（第 4.3 节）表明，这些模式不仅会损害特征合成结果，还会导致 3D 感知性能大幅下降。

共享可学习加法先验。 我们的解决方案基于 ViT 逐图像提取特征图的观察结果，并且这些 PE 模式在所有图像中（几乎）一致地出现。这表明单个 PE 特征图可能足以捕获此共享工件。因此，我们假设 PE 模式有一个加性噪声模型；也就是说，它们可以独立地从原始特征中减去，以获得无PE特征。有了这个假设，我们构建了一个可学习且全局共享的 2D 特征图 U 来补偿这些模式。这个过程如图2(b)所示。对于目标像素坐标（u，v），我们首先体积渲染无 PE 特征，如方程（10）所示。然后，我们对 U 进行双线性插值，并使用单层 MLPPE 对插值特征进行解码，以获得 PE 模式特征，然后将其添加到无 PE 特征中。正式：

分组的术语分别呈现“无 PE”特征（图 1i）和“PE”模式（图 1j），它们的总和产生整体“包含 PE”特征（图 1h）。

3.4优化

损失函数。 我们的方法将像素射线和 LiDAR 射线解耦，以解决传感器异步问题。对于像素光线，我们使用颜色 Lrgb 的 L2 损失（以及可选的语义特征 Lfeat）、天空监督的二元交叉熵损失 Lsky 和阴影稀疏损失 Lshadow。对于 LiDAR 射线，我们将预期深度损失与视线损失 L 深度结合起来，如 Rematas 等人中提出的那样。这种视线损失促进了密度权重沿射线的单峰分布，我们发现这对于清晰的静态-动态分解很重要。对于动态正则化，我们使用基于密度的正则化（方程 6）来鼓励动态场仅在绝对必要时才产生密度值。这种动态正则化损失适用于像素射线 (Lσd(pixel)) 和 LiDAR 射线 (Lσd(LiDAR) )。最后，我们用循环一致性损失 Lcycle 来规范流场。详细信息参见附录A.1。总而言之，我们最小化：

实现细节。 所有的模型实现细节都可以在附录A中找到。

4.实验

在本节中，我们将 EmerNeRF 的重建能力与现有方法进行基准测试，重点关注静态和动态场景重建、新颖的视图合成、场景流估计和基础模型特征重建。进一步的消融研究和对 EmerNeRF 局限性的讨论可分别参见附录 C.2 和 C.3。

数据集。 虽然存在许多包含 AV 传感器数据的公共数据集，但它们严重不平衡，包含许多简单场景，几乎没有动态对象。为了解决这个问题，我们引入了 NeRF On-The-Road (NOTR)，这是一个源自 Waymo 开放数据集的平衡且多样化的基准。NOTR 具有 120 个独特的、精心挑选的驾驶序列，分为 32 个静态（与 StreetSurf中的划分相同）、32 个动态和 56 个不同的场景，跨越七种具有挑战性的条件：自我静态、高速、曝光不匹配、黄昏/黎明、阴沉、雨天和夜晚。我们分别将这些分割命名为 Static32、Dynamic-32 和 Diverse-56。该数据集不仅为静态和动态对象重建提供了一致的基准，还凸显了在真实世界的 AV 数据上训练 NeRF 的挑战。除了模拟之外，我们的基准测试还提供动态对象的 2D 边界框、地面实况 3D 场景流和 3D 语义占用——所有这些对于驱动感知任务都至关重要。更多详细信息请参见附录 B。

4.1渲染

设置。 为了分析不同驾驶场景的性能，我们在不同的NOTR分割上测试了EmerNeRF的场景重建和新颖的视图合成能力。对于场景重建，使用日志中的所有样本进行训练。这个设置探测每个方法的上界。对于新视图合成，我们省略每10个时间步，导致10%的新时间视图用于评估。我们的指标包括峰值信噪比(PSNR)和结构相似性指数(SSIM)。对于动态场景，我们进一步利用地面真值边界框和速度数据来识别动态对象并计算“仅限动态”指标;我们对HyperNeRF和D2NeRF这两种最先进的动态场景建模方法进行了基准测试。由于他们高昂的训练成本，我们只在Dynamic-32分割中与他们进行比较。在Static-32拆分中，我们禁用动态和流分支，并与StreetSurf和iNGP进行比较。我们使用这些方法发布的官方代码库，并使其适应NOTR。为了确保公平的比较，我们增加了LiDAR深度监督和天空监督的所有方法，并禁用了我们的特征域。详情见附录A.2。

动态场景对比。 表1 (a)表明，我们的方法在场景重建和新视图合成方面始终优于其他方法。我们建议读者参考附录C.1进行定性比较。在其中，我们可以看到HyperNeRF和D2NeRF倾向于产生过度平滑的渲染，并与动态对象表示作斗争。相比之下，EmerNeRF在重建高保真静态背景和动态前景对象方面表现出色，同时保留了高频细节(从其高SSIM和PSNR值可以看出)。尽管D2NeRF的意图是分离静态和动态元素，但它在复杂的驾驶环境中表现不佳，并且产生了较差的动态对象分割(如图C.4所示)。我们的方法在数量和质量上都优于他们。静态场景比较。虽然静态场景表示不是我们的主要关注点，但EmerNeRF在这方面也表现出色，如表1 (b)所示。它优于最先进的StreetSuRF (Guo et al .， 2023)，后者专为静态户外场景设计。凭借对静态和动态组件建模的能力，EmerNeRF可以准确地表示更通用的驾驶场景。

表1:动态和静态场景重建性能。

4.2流估计

设置。 我们在Dynamic-32分裂的所有帧上评估EmerNeRF，并对先前最先进的NSFP进行基准测试。使用Waymo数据集的地面真实场景流，我们计算了与Li等人一致的指标:3D终点误差(EPE3D)，计算为所有点的预测与地面真实之间的平均L2距离;Acc5，表示EPE3D小于5cm或相对误差小于5%的点的比例;Acc10，表示EPE3D在10cm以下或相对误差在10%以下的点的比例;θ，预测和实际情况之间的平均角度误差。在评估NSFP时，我们使用它们的官方实现并删除接地点(我们的方法不需要这样的预处理)。

结果。 如表2所示，我们的方法在所有指标上都优于NSFP，在EPE3D、Acc5和Acc10方面明显领先。NSFP采用倒角距离损失风扇等来求解场景流，而EmerNeRF在没有任何明确的流监督的情况下取得了明显更好的结果。这些属性自然地出现在我们的时间聚合步骤中。附录C.2包含了关于流估算的消融研究。

表2:NOTR Dynamic-32分割下的场景流估计。

4.3利用基础模型特征

为了研究ViT PE模式对3D感知和特征合成的影响，我们实例化了带有和不带有我们提出的PE分解模块的EmerNeRF版本。

设置。 我们使用Occ3D数据集评估了EmerNeRF的少数镜头感知能力。Occ3D为Waymo数据集提供了体素大小为0.4m和0.1m的3D语义占用注释(我们使用0.1m)。对于每个序列，我们每隔10帧用地面真值信息注释，得到10%的标记数据。被占用的坐标输入到预训练的EmerNeRF模型中，计算每个类的特征质心。然后对其余90%的帧中的特征进行查询，并根据其最近的特征质心进行分类。我们报告微观(样本平均)和宏观(类平均)分类精度。所有的模型都是从场景重建设置中获得的，即所有的视图都用于训练。

结果。 表3比较了含pe的4D特征与不含pe的4D特征的性能。值得注意的是，与含pe的EmerNeRF相比，无pe DINOv2特征的EmerNeRF的微精度最大相对提高了63.22%，平均提高了37.50%。有趣的是，尽管DINOv1模型在视觉上可能不受影响(图C.5)，但我们的结果表明，将含有pe的特征直接提升到4D时空确实存在问题。通过我们的分解，无pe的DINOv1特征在微精度方面平均相对提高了24.95%。作为PE模式影响的另一个例证，通过消除PE模式，DINOv2优于DINOv1的性能改进延续到3D感知(例如，Static32微精度)。