专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

CMU、斯坦福、微软联合发布！用于2D和3D分割的大一统模型

学姐带你玩AI · 公众号 · · 2024-06-17 10:39

正文

来源：投稿作者：橡皮
编辑：学姐

论文链接：https://arxiv.org/abs/2401.02416

项目主页：https://odin-seg.github.io

摘要：

ScanNet 等当代 3D 分割基准的最先进模型使用和标记数据集提供的 3D 点云，这些点云是通过感测的多视图 RGB-D 图像的后处理获得的。它们通常在域内进行训练，放弃大规模 2D 预训练，并优于以 RGBD 多视图图像为特征的替代方案。使用姿势图像的方法与后处理的 3D 点云的方法之间的性能差距让人更加相信 2D 和 3D 感知需要不同的模型架构。在本文中，我们挑战了这一观点，并提出了 ODIN（全维实例分割），这是一种可以分割和标记 2D RGB 图像和 3D 点云的模型，使用在 2D 视图内和 3D 跨视图之间交替的转换器架构。视图信息融合。我们的模型通过所涉及标记的位置编码来区分 2D 和 3D 特征操作，该编码捕获 2D 补丁标记的像素坐标和 3D 特征标记的 3D 坐标。ODIN 在 ScanNet200、Matterport3D 和 AI2THOR 3D 实例分割基准上实现了最先进的性能，在 ScanNet、S3DIS 和 COCO 上实现了具有竞争力的性能。当使用感测到的 3D 点云代替从 3D 网格采样的点云时，它的性能大大优于以前的所有工作。当在可指导的具体代理架构中用作 3D 感知引擎时，它在 TEACh 对话行动基准上树立了新的最先进水平。

1 引言

人们对将 2D 基础图像特征移植到 3D 场景理解的兴趣激增。一些方法使用感测深度将预训练的 2D 图像特征提升为 3D 特征云。其他人通过按场景训练它们来渲染预训练骨干的 2D 特征图，将 2D 主干提取为可微分的参数化 3D 模型，例如 NeRF。尽管做出了这些努力，并且 2D 主干的能力不断增强，但 ScanNet 和 ScanNet200 等既定 3D 分割基准的最新技术仍然由直接在 3D 中运行的模型组成，无需任何 2D 预训练阶段。鉴于 2D 预训练的明显威力，为什么在这些 3D 任务中取得改进如此困难？

我们观察到，部分问题在于这些 3D 基准评估背后的关键实施细节。像 ScanNet 这样的基准实际上并不要求方法使用 RGB-D 图像作为输入，即使这是传感器数据。相反，这些基准测试首先将所有 RGBD 帧注册到单色点云中，并尽可能干净地重建场景，依靠手动调整阶段进行捆绑调整、异常值拒绝和网格划分，并要求模型标记输出重建。虽然在标记房间内的任何物体之前扫描和重建房间当然是可行的，但该管道可能与体现视觉（和典型的 2D 视觉）的目标不一致，其中涉及处理实际传感器数据并考虑丢失或部分的情况观察。因此，如果我们强制 3D 模型将 RGB-D 帧作为输入而不是预先计算的网格重建作为输入，我们假设方法排名将会发生变化，并且 2D 预训练的影响将会变得明显。我们修改后的评估设置还为新方法打开了大门，这些方法可以使用 RGB 或 RGB-D 传感器在单视图或多视图设置中训练和执行推理。

我们提出全维实例分割 (ODIN)†，这是一种用于 2D 和 3D 对象分割和标记的模型，可以解析单视图 RGB 图像和/或多视图构成的 RGB-D 图像。如图 1 所示，ODIN 在其架构中交替使用 2D 和 3D 阶段，融合每个图像视图内的 2D 信息以及跨姿势图像视图的 3D 信息。在每次 2D 到 3D 转换时，它使用深度图和相机参数将 2D 标记取消投影到其 3D 位置，并且在每次 3D 到 2D 转换时，它将 3D 标记投影回其图像位置。我们的模型通过所涉及标记的位置编码来区分 2D 和 3D 特征，该位置编码捕获 2D 补丁标记的像素坐标和 3D 特征标记的 3D 坐标。在处理 2D 单视图输入时，我们的架构只是跳过 3D 层并仅使用 2D 层进行前向传递。

我们在 2D COCO 对象分割基准和 ScanNet、ScanNet200、Matterport3D、S3DIS 和 AI2THOR 的 3D 基准上测试了 ODIN 的 2D 和 3D 实例分割以及 3D 语义分割。与使用预先计算的网格点云作为输入的方法相比，我们的方法在 ScanNet 和 S3DIS 上的表现比最先进的方法稍差，但在 ScanNet200 和 Matterport3D 上表现更好。当使用真实传感器数据作为输入，并从所有方法的束重建中获得姿势时，我们的方法表现得更好，在所有数据集中都大大优于所有先前的工作。我们证明了我们的模型在 3D 和 2D 数据集上联合训练的能力可以提高 3D 基准的性能，并且在 2D COCO 基准上产生具有竞争力的分割精度。我们的消融表明，交错的 2D 和 3D 融合操作优于我们首先在 2D 中处理然后转向 3D 的设计，或者简单地用 2D 特征绘制 3D 点。为了实现我们更广泛的体现视觉目标，我们还在模拟基准 TEACh 上部署 ODIN 作为 SOTA 体现代理模型的 3D 对象分割器，可以访问来自模拟器的 RGB-D 和姿势信息，并证明我们的模型设定了新的最先进水平。

2 相关工作

3D 实例分割。 3D 实例分割中的早期方法将其语义分割输出分组为各个实例。最近，Mask2Former 通过实例化对象查询实现了最先进的 2D 实例分割，每个查询通过与输入图像的特征图进行点积直接预测实例分割掩码。受其启发，Mask3D放弃了之前3D模型的分组策略，转而使用Mask2Former的简单解码头。MAFT 和 QueryFormer 通过合并更好的查询初始化策略和/或相对位置嵌入来改进 Mask3D。虽然这种向 Mask2Former 式架构的转变使 3D 实例分割架构更接近 2D 对应架构，但输入和主干仍然非常不同：2D 模型使用预先训练的主干，而 3D 方法在点云上运行并使用基于稀疏卷积的主干，在小规模 3D 数据集上从头开始训练。在这项工作中，我们建议直接使用 RGB-D 输入和设计架构，可以利用强大的 2D 主干在 3D 基准上实现强大的性能。

3D 数据集和基准。 大多数 3D 模型主要在点云上运行，避免使用基于图像的特征，部分原因是流行基准的设计。这些基准测试通过处理原始 RGB-D 传感器数据来生成点云，涉及手动和噪声步骤，导致重建点云和传感器数据之间不一致。例如，ScanNet 经历了复杂的网格重建步骤，包括束重建、隐式 TSDF 表示拟合、行进立方体、合并和删除噪声网格顶点，最后手动删除高度未对准的网格重建。与在提供的点云上训练和测试的方法相比，网格重建过程引入的错位可能会导致直接处理传感器数据的方法表现不佳。此外，某些数据集（例如 HM3D）无法访问原始 RGB-D 数据。虽然网格重建有其应用，但许多实时应用程序需要直接处理传感器数据。

基于 2D 的 3D 分割。 与实例分割文献不同，MVPNet、BPNet 和 DeepViewAgg 等几种语义分割方法直接利用传感器点云，而不是网格采样点云。Virtual Multiview Fusion 放弃了传感器 RGB-D 图像，转而从提供的网格渲染 RGB-D 图像，以对抗 ScanNet 图像中的错位和低视野。与我们的方法类似，BPNet 和 DeepViewAgg 集成了各种特征尺度的 2D-3D 信息，并使用预训练的特征初始化其 2D 流。具体而言，它们使用单独的 2D 和 3D U-Net 来处理相应的模态，并通过连接模块融合来自两个流的特征。我们的架构不是使用不同的流来特征化原始数据，而是实例化一个统一的 U-Net，它交错 2D 和 3D 层，可以用一个统一的架构处理 2D 和 3D 感知任务。值得注意的是，虽然这些工作仅仅关注语义分割，但我们的单一架构在语义和实例分割任务中都表现出色。

2D 基础模型的最新进展促使人们努力将其应用于 3D 任务，例如点云分类、零样本 3D 语义分割以及最近的零样本实例分割。通常，这些方法利用 2D 基础模型来表征 RGB 图像，将 3D 点云投影到这些图像上，使用深度进行遮挡推理，并通过均值池等简单技术集成所有视图的特征。值得注意的是，这些方法主要关注语义分割，强调像素级标记，而不是实例标记，这需要跨视图推理来跨多个视图关联相同的对象实例。OpenMask3D 是我们所知的唯一尝试使用 2D 基础模型进行 3D 实例分割的方法，方法是在 3D 点云上训练与类无关的 3D 对象分割器并利用 CLIP 特征对其进行标记。尽管它们在零样本设置中很有效，但它们通常落后于 SOTA 3D 监督方法 15-20%。某些作品不依赖基础模型的特征，而是使用预先训练的 2D 模型创建 3D 伪标签。另一项工作涉及拟合神经辐射场 (NeRF)，结合来自 CLIP 的功能或来自最先进的 2D 分割器的按视图实例分割。这些方法需要昂贵的每场景优化，从而禁止在所有测试场景上进行测试以与 SOTA 3D 判别模型进行比较。Omnivore 没有将 2D 基础模型重新用于 3D 任务，而是建议构建一个统一的架构，可以处理图像、视频和单视图 RGB-D 图像等多种视觉模式，但它们仅显示分类任务的结果。同样，我们提出了一个统一模型，能够执行单视图 2D 和多视图 3D 实例和语义分割任务，同时为我们的大部分架构利用预先训练的权重。

3 方法

ODIN 的架构如图 2 所示。它采用单个 RGB 图像或一组摆设的 RGB-D 图像（即与深度图和相机参数关联的 RGB 图像）并输出相应的 2D 或 3D 实例分割掩模及其语义标签。为了实现这一点，ODIN 在 2D 视图内融合和 3D 基于注意力的跨视图融合之间交替，如图 2 中的蓝色块和黄色块所示。分段解码头预测实例掩码和语义标签。值得注意的是，ODIN 在 RGB 和多视图 RGB-D 输入上共享大部分参数。我们在下面详细介绍了我们的架构的组件。

图 1. 全维实例分割 (ODIN) 是一种模型，可以将单个 RGB 图像或多视图构成的 RGB-D 序列分别解析为 2D 或 3D 标记的对象片段。左：给定一个 RGB-D 序列作为输入，ODIN 在视图内 2D 融合和跨视图 3D 融合之间交替。当输入是单个 RGB 图像时，将跳过 3D 融合层。ODIN 在 RGB 和 RGB-D 输入上共享大部分参数，从而能够使用预训练的 2D 主干网。右图：在每次 2D 到 3D 转换时，ODIN 使用感测深度和相机内在和外在参数将 2D 特征标记取消投影到其 3D 位置。

视图内 2D 融合： 我们从 2D 主干网（例如 ResNet50 或 Swin Transformer）开始，按照最先进的 2D 分割模型 Mask2Former 进行 2D COCO 实例分割的预训练。当只有单个 RGB 图像可用时，我们将其传递到整个主干网络以获得多个尺度的 2D 特征。当摆好的 RGB-D 序列可用时，该 2D 处理将与 3D 阶段交织，如下所述。通过交错视图内和跨视图上下文化，我们能够利用 2D 主干的预训练特征，同时融合跨视图的特征，使它们与 3D 一致。

跨视图 3D 融合： 跨视图融合的目标是使各个图像的表示在各个视图之间保持一致。正如我们在消融中所示，跨视图特征一致性对于 3D 实例分割至关重要：它使分割头能够认识到从多个视图观察到的 3D 对象确实是单个实例，而不是每个视点中的单独实例。

2D 到 3D 反投影：我们通过使用最近邻深度和已知的相机内在和外在参数，使用针孔相机模型将每个特征向量提升到相应的 3D 位置，从而将每个 2D 特征图反投影到 3D。随后，生成的特征化点云进行体素化，其中 3D 空间被离散化为体积网格。在每个占用的网格单元（体素）内，对特征和 XYZ 坐标进行均值池化，以导出新的 3D 特征标记集及其各自的 3D 位置。
具有相对位置的 3D k-NN Transformer：我们使用 k 最近邻注意力和相对 3D 位置嵌入来融合 3D 标记之间的信息。这与 Point Transformers类似，但我们只是使用普通的交叉注意力而不是这些作品中提出的向量注意力。具体来说，在我们的方法中，每个 3D 标记都会关注其 k 个最近的邻居。此操作中的位置嵌入与查询标记的位置相关。我们通过使用 MLP 对标记与其邻居之间的距离向量进行编码来实现这一点。查询的位置嵌入只是 0 向量的编码。因此我们有：

其中 pi 表示 3D token，形状为 N × 1 × 3，pj 表示每个 pi 的 k 个最近邻居，形状为 N ×k×3。这样，注意力操作对于 3D 标记的绝对坐标是不变的，并且仅取决于它们的相对空间排列。虽然每个 3D token 总是关注相同的 k 个邻居，但其有效感受野会跨层增长，因为邻居的特征在执行自己的关注时会更新。
3D 到 2D 投影：将标记置于 3D 环境中后，我们将特征投影回其原始 2D 位置。我们首先将每个体素的特征复制到该体素内的所有点。然后，我们将这些点重塑回多视图 2D 特征图，以便它们可以由下一个 2D 模块处理。特征向量在此转换中保持不变；区别在于它们的解释和形状。在 2D 中，特征的形状为 V × H × W × F，表示每个视点的特征图；在 3D 中，特征的形状为 N ×F，表示统一的特征云，其中 N = V · H · W.

跨尺度融合和上采样： 在多个单视图和跨视图阶段之后，我们可以访问每个图像以不同分辨率的多个特征图。我们借助可变形 2D 注意力（类似于 Mask2Former）来合并这些，在三个最低分辨率尺度（1/32、1/16、1/8）上运行。当我们有 3D 输入时，我们在可变形注意力之后在每个尺度应用额外的 3D 融合层，以恢复 3D 一致性。最后，我们在 1/8 分辨率特征图上使用一个简单的上采样层，使其达到 1/4 分辨率，并通过跳跃连接添加到主干网的 1/4 特征图。

传感器深度到网格点云特征传输： 对于 ScanNet和 ScanNet200 等 3D 基准测试，目标是标记从网格导出的点云，而不是传感器的深度图。因此，在这些基准测试中，我们不是将 1/8 分辨率特征图上采样到 1/4，而是将 1/8 分辨率特征图的特征三线性插值到从网格采样的提供的点云。这意味着：对于网格中的每个顶点，我们根据计算的 3D 特征进行三线性插值以获得插值特征。我们还从主干中未投影的 1/4 分辨率特征图进行类似的插值，以实现加性跳过连接。

共享2D-3D分割掩码解码器： 我们的分割解码器是一个Transformer，类似于Mask2Former的解码器头，它以上采样的2D或3D特征图作为输入，并输出相应的2D或3D分割掩码及其语义类。具体来说，我们实例化一组 N 个可学习对象查询，负责解码各个实例。这些查询由查询细化块迭代细化，该块包括对上采样特征的交叉关注，然后是查询之间的自关注。除了位置嵌入之外，所有注意力和查询权重在 2D 和 3D 之间共享。我们在 2D 中使用傅立叶位置编码，而在 3D 中我们使用 MLP 对 3D 标记的 XYZ 坐标进行编码。细化的查询用于预测实例掩码和语义类别。对于掩模预测，查询使用最高分辨率的上采样特征进行标记式点积。对于语义类别预测，我们在查询上使用 MLP，将它们映射到类别逻辑。我们建议读者参阅 Mask2Former 了解更多详细信息。

开放词汇类解码器： 从之前的开放词汇检测方法中汲取灵感，我们引入了一种能够处理任意数量语义类的替代分类头。此修改对于多个数据集的联合训练至关重要。与 BUTD-DETR 和 GLIP 类似，我们为模型提供一个检测提示，该提示是通过将对象类别连接成一个句子（例如“Chair.Table.Sofa.”）而形成的，并使用 RoBERTa 对其进行编码。在查询细化块中，查询在关注上采样的特征图之前还关注这些文本标记。对于语义类别预测，我们首先在查询和语言标记之间执行点积运算，在检测提示中为每个标记生成一个 logit。然后，对与特定对象类的提示标记相对应的逻辑进行平均，以得出每类逻辑。这可以处理多词名词短语，例如“浴帘”，我们对“淋浴”和“窗帘”对应的逻辑进行平均。分割掩模是通过像素/逐点点积来预测的，与前面描述的方式相同。

图 2. ODIN 架构：模型的输入是单个 RGB 图像或多视图 RGB-D 姿势序列。我们将它们输入 ODIN 的主干网络，该主干网络交错 2D 视图内融合层和 3D 跨视图注意层，以提取不同分辨率（尺度）的特征图。这些特征图通过多尺度注意力操作交换信息。额外的 3D 融合层用于提高多视图一致性。然后，使用掩码解码器头来初始化和细化可学习槽，这些槽参与多尺度特征图并预测对象片段（掩码和语义类）。

实现细节： 我们使用在 COCO 上训练的 Mask2Former 的预训练权重来初始化我们的模型。随后，我们端到端地训练所有参数，包括来自 3D 融合层的预训练参数和新参数。在 3D 场景训练期间，我们的模型处理 N 个连续帧的序列，通常包含 25 帧。在测试时，我们将场景中的所有图像输入到模型中，ScanNet 中每个场景平均有 90 张图像。除了在 2D-3D 数据集上联合训练之外，我们在所有实验中都使用普通的封闭词汇解码头。在那里，我们使用开放词汇类解码器来处理这些数据集中的不同标签空间。在训练过程中，我们对 2D 和 3D 联合数据集采用开放词汇掩码解码，否则采用普通封闭词汇解码。训练将持续进行，直到在 2 个具有 40 GB VRAM 的 NVIDIA A100 上进行收敛，3D 中的有效批量大小为 6，2D 中的有效批量大小为 16。对于 2D 和 3D 数据集的联合训练，我们交替采样 2D 和 3D 批次，每个 GPU 的批次大小分别为 3 和 8。我们采用 Mask2Former 的策略，使用匈牙利匹配将查询与真实实例和监督损失进行匹配。虽然我们的模型仅针对实例分割进行训练，但它可以像 Mask2Former 一样在测试时免费执行语义分割。我们参考 Mask2Former 了解更多细节。

4 实验

4.1 3D基准评估

数据集： 首先，我们在 ScanNet 和 ScanNet200 基准中对 3D 实例和语义分割模型进行测试。这些基准的目标是标记从原始传感器数据重建的场景的 3D 网格中提取的点云。ScanNet 对 20 个常见语义类进行评估，而 ScanNet200 使用 200 个类，这更能代表现实世界中遇到的长尾对象分布。我们在此处报告这些数据集的官方验证分割结果，并在补充材料中报告官方测试分割结果。

评估指标： 我们遵循标准评估指标，即实例分割的平均平均精度 (mAP) 和语义分割的平均联合交集 (mIoU)。

基线： 在实例分割中，我们的主要基线是 SOTA 3D 方法 Mask3D。为了进行彻底的比较，我们使用传感器 RGB-D 点云输入来训练 Mask3D 和我们的模型，并在基准提供的网格采样点云上对其进行评估。我们还与以下最近的并发作品进行比较：PBNet、QueryFormer 和 MAFT。QueryFormer 和 MAFT 在类似 Mask3D 的架构中探索查询初始化和细化，因此与我们具有互补的优势。与 ODIN 不同，这些方法直接处理 3D 点云并从头开始初始化其权重。正如前面所提到的，直接利用 RGB-D 输入有几个优点，包括避免昂贵的网格构建过程、实现 2D 和 3D 感知的更紧密集成，以及利用预先训练的特征和丰富的 2D 数据。

在 语义分割 中，我们与直接对传感器 RGB 或 RGB-D 图像和点云进行操作的 MVPNet、BPNet 和最先进的 DeepViewAgg 进行比较。我们还与 VMVF 进行比较，VMVF 对来自提供的网格的渲染 RGB-D 图像进行操作，采用启发式相机视图采样以避免遮挡，确保平衡的场景覆盖，并采用更宽的视野，尽管我们注意到他们的代码不是公开可用。与 ODIN 类似，所有这些方法都利用 2D 预训练主干。我们还与 Point-Transformer v2、Stratified Transformer、OctFormer 和 Swin3D-L 进行比较，它们直接处理网格采样点云，而不使用任何 2D 预训练。在 ScanNet200 语义分割基准上，我们与 SOTA OctFormer 和 CeCo（一种专门为解决 ScanNet200 中的类不平衡问题而设计的方法）进行了比较。这些方法直接处理点云，不使用二维图像预训练权重。我们还与使用 2D CLIP 预训练的 LGround 进行比较。我们还与 OpenScene 和 OpenMask3D 的基于零样本 2D 基础模型的 3D 模型进行比较。这种比较是不公平的，因为它们不受域内的监督，但为了完整性我们将它们包括在内。结果如表 1 所示。我们得出以下结论：

当传感器点云作为输入时，性能下降（表 1a）： Mask3D 的性能从网格点云输入的 55.2% mAP 下降到传感器点云输入的 43.9% mAP。这与 ScanNet 上 3D 语义分割的先前工作一致，后者将下降归因于相机姿势、深度变化和后处理步骤中的噪声引起的未对准。

ODIN 优于具有传感器点云输入的 SOTA 3D 方法，但在基线使用网格采样点云时表现不佳（表 1a）： 我们的模型显着优于具有传感器点云输入的 SOTA Mask3D 模型，并实现了与使用网格采样点的方法相当的性能由于 3D 网格和传感器点云之间未对准，mAP25 指标上的云输入远远落后于 mAP 指标。

ODIN 在 ScanNet 上的语义分割中建立了新的 SOTA（表 1b） ，优于所有设置上的所有方法，包括在传感器、渲染和网格采样点云上训练的模型。

ODIN 在长尾 ScanNet200 数据集（Tab.1c）上设置了新的实例分割 SOTA， 在所有设置上都优于 SOTA 3D 模型，包括在网格采样点云上训练的模型，尤其是在 mAP25 指标中大幅领先，同时专门使用传感器RGBD 数据。这凸显了 2D 特征的贡献，特别是在检测可用 3D 数据有限的类分布的长尾方面。我们在附录（Sec.A.3）中展示了更详细的结果以及头部、普通和尾部类别的性能。

ODIN在ScanNet200上设置了新的语义分割SOTA（Tab.1d）， 优于使用网格点云的SOTA语义分割模型。

表 1. 3D 基准测试评估（§ = 我们使用官方代码库进行训练）。

4.2 多视角 RGB-D 仿真评估

使用 AI2THOR 模拟环境和来自 ProcThor 的程序化主页，我们收集了 1500 个场景（1200 个训练，300 个测试）的 RGB-D 数据，其大小与 ScanNet 相似（更多详细信息请参阅附录 B 节）。我们在未投影的 RGB-D 图像上训练和评估我们的模型和 SOTA Mask3D。如表 2 所示，我们的模型比 Mask3D 高出 3.7% mAP，在直接可比的 RGB-D 设置中表现出色。这表明，由于错位，当前的现实世界基准可能会限制以 RGB-D 传感器点云为特征的模型。我们希望这能鼓励社区也专注于直接收集、标记和基准测试 RGB-D 传感器数据。

表 2. AI2THOR 语义和实例分割。

4.3 具身指令跟随

我们将 ODIN 应用在 TEACh 和 ALFRED 的具体设置中，其中代理可以访问 RGB、深度和相机姿势，并且需要分别从对话片段和指令中推断和执行任务和行动计划。这些代理在动态的家庭环境中运行，无法承担昂贵的网格构建步骤。在这两种情况下，良好地检测物体对于任务成功至关重要。先前的 SOTA 方法运行每个视图的 2D 实例分割模型，并使用关于空间和外观接近度的简单时间推理来链接检测到的实例。相反，ODIN 直接以 3D 方式处理最后 N 个以自我为中心的视图并分段对象实例。我们为 HELPER（一种最先进的体现模型）配备了 ODIN 作为其 3D 对象检测引擎。我们使用任务成功率（SR）和目标条件成功率（GC）来评估，任务成功率（SR）检查整个任务是否成功执行，目标条件成功率（GC）检查所有情节中满足子目标的比例。我们对“有效-可见”（与训练集相似的房屋）和“有效-未见”（不相似的房屋）分割进行评估。在表 3 中，我们观察到以 ODIN 作为 3D 目标检测器的 HELPER 明显优于使用原始 2D 检测加上链接感知管道的 HELPER。

表 3. 具身指令跟随。SR = 成功率。GC = 目标条件成功率。

4.4 消融和变体

我们在表 4 和表 5 中的 ScanNet 数据集上进行了消融实验。我们的结论是：

2D-3D联合训练有助于3D感知。 我们将来自 ScanNet 的传感器 RGB-D 点云和来自 COCO 的 2D RGB 图像的 ODIN 联合训练与在 2D 和 3D 数据上独立训练的变体进行比较，所有变体都是从预训练的 COCO 权重初始化的。由于 ScanNet 和 COCO 中有不同的类，因此我们使用开放词汇语义类解码头而不是普通的封闭词汇头。表 4 中的结果表明，联合训练在 3D 方面产生了 1.3% 的绝对改进，并在 2D 方面导致了类似的下降。这个实验表明，单一架构可以在 2D 和 3D 任务上表现良好，从而表明我们可能不需要在任一领域设计截然不同的架构。然而，2D 性能的下降表明架构设计有可能进一步改进，以保持 2D 域的性能。尽管如此，该实验强调了在 ODIN 中使用 2D 数据集联合训练进行 3D 分割的好处。请注意，由于计算限制，我们不会在任何其他实验中联合训练 2D 和 3D 数据集。

表 4.来自 ScanNet 的传感器 RGB-D 点云和来自 COCO 的 2D RGB 图像的联合训练。

跨视图融合对于实例分割至关重要，但对于语义分割则不然（表 5a）： 删除 3D 跨视图融合层会导致实例分割的 mAP 下降 8.5%，但对语义分割没有任何显着影响。流行的基于2D的3D开放词汇作品没有强跨视图融合，只关注语义分割，因此无法揭示这个问题。第 3 行显示，当在所有视图内 2D 层之后发生跨视图 3D 融合而不是交错视图内和跨视图融合时，mAP 下降 6.1%。

2D 预训练权重初始化有帮助（表 5b）： 仅使用预训练权重初始化图像主干，而不是所有层（3D 融合层除外），导致 mAP 下降 5.5%（第 2 行）。从头开始整个模型会导致 mAP 大幅下降 6.3%（第 3 行）。这强调了与 2D 模型共享尽可能多的参数以利用最大可能的 2D 预训练权重的重要性。

更强的 2D 主干网会有所帮助（表 5c）： 在 ResNet50 上使用 Swin-B 可以带来显着的性能提升，这表明 ODIN 可以直接受益于 2D 计算机视觉的进步。

微调包括预训练参数在内的所有内容会有所帮助（表 5c）： 当我们微调所有参数时，ResNet50 和 Swin 的性能会大幅提高。直观地说，解冻主干可以让 2D 层更好地适应跨视图融合特征。因此，我们在所有实验中都保持主干不被冻结。

直接向 3D 模型提供 2D 特征并没有什么帮助： 将 2D 特征与 XYZ+RGB 连接作为 Mask3D 的输入可产生 53.8% 的 mAP 性能，相比之下，仅 XYZ+RGB 作为输入的基线模型的 53.3%。