专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

ZJU/蚂蚁集团/港科技联合提出深度自回归模型DAR，将自回归大型模型应用于单目深度估计！

智驾实验室 · 公众号 · · 2024-12-19 08:00

正文

请到「今天看啥」查看全文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

这篇论文提出了一种新的自回归模型，作为有效的可扩展单目深度估计器。

作者的想法很简单：作者采用自回归预测范式来解决单目深度估计（MDE）任务，基于两个核心设计。

首先，作者的深度自回归模型（DAR）将不同分辨率的深度图视为一组 Token ，并采用分块随机的 Mask 进行低到高分辨率的自回归目标。

其次，作者的DAR递归地将整个深度范围划分为更紧凑的区间，并采用序数回归方式实现粗到细粒度的自回归目标。

通过结合这两个自回归目标，作者的DAR在KITTI和NYU Depth v2数据集上取得了明显优于当前最先进（SOTA）的性能。

此外，作者的可扩展方法使作者能够将模型扩展到2.0B，并在KITTI数据集上实现最佳RMSE为1.799（相较于当前SOTA的1.896，提高了5%），而DAR在Depth Anything上的最佳RMSE为1.896。DAR在未见过的数据集上展示了零样本泛化能力。

这些结果表明，DAR在自回归预测范式下具有卓越性能，为现代自回归大型模型（如GPT-4o）配备了深度估计能力提供了有前途的方法。

1 Introduction

单目深度估计（MDE）任务的目标是利用单张RGB图像预测每个像素的深度，这在场景理解和重建中起着关键作用[21, 9]。这项任务具有广泛的应用，包括自动驾驶[58]，机器人学[23]，增强现实[37]，医学内窥镜手术[36]，等等。大多数基于深度学习的（DL）方法通常遵循自顶向下、自底向上的编码器-解码器架构，用于深度估计提取和融合低级和高级特征。

最近，自回归（AR）架构在众多任务上展示了强大的泛化能力和显著的扩展性：

（一）泛化： AR 模型在未见过的数据集上实现了显著的零样本和少样本性能，并展现出在各种下游任务上适应的巨大灵活性 [42, 7]。

（二）扩展性：正如扩展定律 [24, 17]所建议的，AR 模型允许在各种实际应用中实现灵活的模型大小扩展，以获得最佳性能。近年来，基于 AR 架构的大语言模型（LLMs ) 和多模态大语言模型（MLLMs）（例如，GPT-4 和 LLaVA [1, 35]）在包括文本到图像生成，视频生成 [61, 60]，目标检测 [10] 和跟踪 [59] 等多种任务上取得了杰出成果。

自然地，这引出了一个有趣的问题：能否为MDE任务开发一个自回归模型？

然而，自回归建模依赖于一个组织良好的顺序数据生成，其中每个步骤的预测都与前一个步骤的预测逻辑上相关。虽然这种顺序依赖在其他任务中可能很常见，但与MDE的需求不太直观地一致，即在MDE任务中，有意义的顺序预测目标并不明显。

在本文中，作者介绍了一种简单、有效且可扩展的深度自回归（DAR）框架用于MDE。作者的新方法利用了MDE的两个关键顺序性质，并将其作为自回归目标进行整合，如图1所示。第一个性质是“深度图分辨率”：作者在不同分辨率下生成深度图，从低到高排序，并把不同分辨率的深度图序列视为预测目标[53]。

这种方法将深度图生成重新定义为低到高分辨率的自回归目标，其中每个步骤基于先前的预测生成更高分辨率的深度图。第二个性质是“深度值”，它固有地存在于连续空间中。通常，已知的方法将深度值离散化为几个区间（或桶）以构建序变量回归任务[14]。通过进一步将深度范围离散化为逐渐细化的区间，作者将MDE重新构造成粗到细的自回归目标。

对于分辨率自回归目标，作者开发了一种深度自回归Transformer，该Transformer根据其前缀预测使用切片因果 Mask 预测下一个分辨率深度图。

为了实现粒度自回归目标，作者提出了一种新颖的划分策略，称为多路树划分（MTBin），该策略使用先验深度预测来 Query 相应的划分，然后递归地将每个划分细化为具有后续自回归步骤容错的子划分。重要的是，这些划分不仅用于计算最终深度值，还用于将粒度信息嵌入潜在 Token 映射中，有效地指导深度图生成过程。

综合实验表明，作者的DAR在KITTI和NYU Depth v2数据集上实现了最先进的（SOTA）性能。在相似的模型大小下，DAR在所有指标上都超过了当前的SOTA（_Depth Anything_），尤其是在KITTI上的RMSE指标上，DAR比SOTA提高了3%。DAR还表现出类似于LLM的扩展规律，其大小可以轻松扩展到2.0B，从而建立了一个新的SOTA性能，如图2所示。最后，作者展示了DAR在未见过的数据集上的零样本泛化能力。这些结果进一步验证了DAR的泛化能力和可扩展性。

这项工作的贡献是多方面的：

迄今为止，作者提出了第一个单目深度估计（MDE）的自回归模型（MDE），称为DAR——一个简单、有效且可扩展的框架。作者的关键见解在于将MDE中的两个有序属性（深度图分辨率与粒度）转换为自回归目标。

作者将现有编码器-解码器模型中的低级和高级特征融合过程重构为低到高分辨率的自动回归目标。作者引入了一种新的深度自回归Transformer，它使用分块因果 Mask 并逐步生成增加分辨率的深度图，这些深度图基于输入RGB图像中的 Token 。

作者提出了一种新颖的分箱策略，称为多向树分箱（MTBin），专门针对粒度自回归目标，将MDE任务转换为自回归分箱序列预测任务。通过将分箱信息嵌入潜在 Token 映射中，DAR有效地将分辨率和粒度自回归过程连接起来。

DAR在KITTI和NYU Depth v2数据集上建立了新的最先进性能，并展现出比Depth Anything更强的零样本学习能力[63]。基于仅解码Transformer的系列DAR模型，从440M到2.0B参数不等，分别开发。其中最大的模型在NYU Depth v2上实现了0.205 RMSE和0.982 ，明显优于现有方法。

2 Related Work

单目深度估计（MDE）具有长足的发展历程，从传统方法到深度学习（DL）技术。传统方法依赖于手工设计的特征 [20, 34]，并使用马尔可夫随机场（MRF） [46] 预测深度图。然而，它们在处理复杂场景时存在局限性。现代DL技术将该问题视为密集回归问题。主要的改进主要来自三个方面：模型架构、数据驱动和语言指导。

(1) 模型架构: 主要改进来自于模型 Backbone 的转换，从卷积神经网络（CNNs）到 Transformer （Transformers）到当前的扩散模型（Diffusion Models）。

(2) 数据驱动方法: 里程碑式数据驱动方法MiDas [44] 提出，通过将不同数据集混合训练，在大量数据上实现对通用模型的良好泛化，从而实现了出色的零样本迁移性能。ZoeDepth [6] 和Depth Anything [63] 进一步利用大规模无标签数据（62M）通过自监督学习，取得了卓越的零样本泛化性能。

(3) 语言指导方法: 得益于CLIP和其他语言视觉预训练模型的丰富视觉和文本信息，VPD等方法利用语言描述来促进深度估计，并在标准深度估计数据集上实现了最先进的性能。

MDE作为序变量回归。 另一项主要工作是将MDE视为序变量回归任务[18, 16]，旨在预测一个序变量尺度上的标签。通过将深度空间离散化为多个区间，DORN [14] 首先提出一个序变量回归网络来预测离散的深度值。从那时起，许多研究发展了各种深度分箱策略来离散化深度范围并解决MDE作为序变量回归问题。特别是，Ord2Seq [56] 将序变量回归视为标签序列任务，并提出一个自回归网络逐步预测更精细的标签。受到这一启发，作者从区间视角将MDE转换为自回归预测任务，以实现逐步更精细的预测。

自回归视觉生成 。许多最近的方法探讨了自回归模型在视觉领域的有效性。VQGAN [13] 提出使用 VQVAE [54] 在潜在空间中进行自回归过程。它采用了仅GPT-2解码器的Transformer来按光栅扫描顺序生成 Token 。VQVAE-2 [45] 和 RQ-Transformer [28] 也遵循这种光栅扫描方式，但使用了额外的尺度或堆叠代码。VAR [53] 提出了一种从下一尺度预测进行文本到图像自回归生成的方法，将整个图像转换为一组 Token ，并将其作为预测下一个尺度目标图像的输入。受此启发，作者将MDE从尺度预测任务的角度转化为自回归预测任务，逐步实现较大分辨率预测。

3 Method

Preliminaries

基于序回归的MDE 。一些方法[14, 4]采用序回归的方式处理MDE，学习每个像素的概率分布，并使用深度候选作为最终的深度预测。假设作者将深度范围划分为个桶。那么第个桶的中心为。对于每个像素，模型将预测个Softmax分数，这些分数指的是该像素在个桶上的概率。最终的预测深度值可以通过该像素的Softmax分数和桶中心进行线性组合计算，如下所示：

Overview

作者提出了一个新的深度自回归（DAR）建模方法，以探索自回归模型在处理深度估计任务方面的潜力。作者定义该任务如下：给定输入RGB图像，其中和分别表示图像的行和高、宽，预测的深度图。作者的模型逐步预测不同尺度的深度图，采用自回归过程。即，第步的每个深度图都是由前一个预测条件决定的：

作者提出的自回归模型DAR涉及优化在数据集上优化，并最终预测深度图。图3显示了作者的DAR概述。DAR包括两个具有序数性质的自回归目标：分辨率和细粒度。前者，分辨率自回归目标，旨在从低分辨率预测到高分辨率；后者，细粒度自回归目标，旨在从粗粒度预测到细粒度。具体而言，DAR由四个部分组成：

图像编码器：作者应用图像编码器来提取RGB图像特征，该编码器将图像特征转化为具有潜在表示的成像 Token 。

DAR Transformer ：作者的DAR Transformer可以通过分块随机的 Mask 逐步预测不同分辨率的分词图，这些分词图是基于提取的RGB图像分词。

作者开发了一种多维树状bins策略（MTBin），将每个像素的深度范围转换为不同粒度的（数量）bin。

Bins Injection ：Bins Injection利用bin候选信息来指导深度 Token 图潜在特征的优化。

Resolution Autoregressive Objective

本文节详细阐述了作者的基于DAR Transformer的具有分块因果自注意力 Mask 的分辨率自回归目标。

作者的DAR Transformer遵循了[55]中的基本架构，包括多头自注意力（MSA）、 LayerNorm （LN）和多头交叉注意力（MCA）层，并使用残差连接，旨在预测不同尺度的对数似然序列。与使用类别标签作为条件的文本到图像模型不同，深度估计主要基于输入RGB图像特征。因此，作者将图像特征X作为条件来控制深度估计。在第k步，作者首先将前一步的 Token 映射上采样到下一个分辨率作为输入 Token 映射。DAR Transformer将作为 Query 输入，将其传递到MSA和MCA层，最终生成对数似然，其中MSA通过使用基于块的因果注意力 Mask ，计算前k步输入 Token 映射的 Key和Value 。MCA使用图像特征X进行注意力计算。作者用k步表示过程如下：

其中 , , 和分别是计算 Query 、 Key和Value 的重量矩阵，Mask 表示针对下一分辨率自回归范式（将在下文讨论）的局部因果注意力 Mask 。然后，被用于生成由 Bins Injection 模块（将在下文讨论）引导的步骤的潜在 Token 映射。在此过程中，DAR 可以集成之前的知识、全局图像特征和bin候选信息，以满足生成更高分辨率深度图的详细特征要求。

为了实现“下一分辨率”的预测，作者采用了一种名为“Patch-wise Causal Attention Mask”的方法，将整个 Token 图作为一个合并的patch-wise Token ，如图4所示。这种新型的mask可以确保每个 Token 只能与属于的前缀 Token 以及中的其他 Token 进行交互。

假设第k-1步中，对于像素的预测深度位于第t个目标分箱内，即：

然后MTBin将递归地将这个bin分成更多细粒度的子bin，并更新深度范围。然而，真实值可能由于深度预测误差而落在目标bin之外。因此，为了保持模型的容错性，新的深度范围首先将扩展到相邻bin , 然后在该均匀空间中分成子bin。这个过程可以表示为：

其中和是为了避免超出左右边界。由于这种分箱过程类似于多路树，作者称这个概念为_Multiway Tree Bins_。每个像素的决策过程是独特的，从粗粒度到细粒度逐渐增加。这些子分箱将作为新的分箱候选，进一步通过_Bins Injection_(讨论如下)引导深度特征建模，并与模型预测的 Token 映射的softmax值进行线性组合，以获得更细粒度的深度图。具体来说，作者可以在第k步将分箱中心作为深度候选，表示为：

当作者获得每个像素的Softmax值，即与深度候选相关的概率分布时，作者通过线性组合计算最终的深度：

首先，作者将全深度范围均匀地划分为个区间：

在第1步中，表示第i个分箱的左边界，默认为16，[ , ]分别为[0.1, 10]和[0.1, 80]对于NYU Depth V2和KITTI，分别表示分箱的宽度的范围。L表示等于d_{max}-d_{min} / N的bin宽度。

Bins Injection 。Bins Injection模块旨在利用新的有效深度范围和bin候选项来指导深度特征的建模。首先，作者通过3×3卷积层将深度候选项投影到特征空间中。然后，将得到的bin特征作为上下文，进一步指导DAR Transformer的输出特征，通过一个ConvGRU [52]模块实现。作者将这个过程表示为：

Other Details

图像编码器。 为了确保与现有方法进行公平比较，作者选择ViT作为图像编码器（与Depth Anything相同）。通过聚合图像编码器不同层的特征图，并将它们都调整为输入图像的1/8分辨率，得到一个大小为的 Token 映射，其中和分别是输入RGB图像的高度和宽度。

损失函数。由于真实深度图存在缺失值，作者无法将真实深度图按照不同的分辨率进行缩放。因此，作者将所有预测深度图都上采样到与真实深度图相同的尺寸，并计算并利用缩放不变的Scale-Invariant Loss：

, 为最大迭代次数，设为5，表示具有有效真实值的像素集合，且和根据 [29] 设置为10和0.85。

4 Experiments

Datasets and Evaluation Metrics

扩大设置。 遵循[24, 17, 19, 1]，作者使用不同大小的DAR Transformer来扩大模型。配置如表1所示。

实现细节 作者的模型在PyTorch平台上实现。为了优化，使用AdamW优化器[26]，初始学习率为。首先将学习率线性增加到，然后在训练迭代过程中线性降低。批量大小为16。作者对KITTI和NYU Depth v2数据集分别训练25个周期。在每个步骤中，新bin的数量为。对于DAR-Base模型，使用8个NVIDIA A100 GPU训练一个周期大约需要30分钟。

作者的实验基于三个基准数据集：NYU Depth V2 [50]，KITTI [15]，和SUN RGB-D [51]。

(a) NYU Depth V2是一个广泛使用的基准数据集，涵盖深度值范围为0到10米的室内场景。作者遵循[30]中的训练测试划分，其中训练集包含24,231张图像，测试集包含654张图像。 GT 深度图使用分辨率为的结构光传感器获取。

(b) KITTI是一个广泛使用的室外基准数据集，包含深度值范围为0到80米的图像。官方划分提供了42,949张图像用于训练，1,000张用于验证，500张用于测试，分辨率为。

(c)SUN RGB-D：作者将其图像预处理至480 x 640分辨率以保持一致。深度值范围为0到10米。作者仅使用官方测试集（5050张图像）进行零样本评估。

Comparisons with Previous Methods

作者在表2中报告了结果。可以看出，使用相同预训练 Backbone 网络和相似的模型大小的DAR（深度自适应融合）优于并高于所有已知方法。通过扩展，DAR-Large在所有指标上都建立了新的SOTA性能，在NYU Depth v2上实现了0.205 RMSE和0.982 ，明显优于现有方法。

在图6中，作者展示了在数据集上的定性比较。首先，作者可以观察到，在作者的模型在目标的边界上进行深度估计时，它的表现更好，使其更加连贯和光滑（例如，椅子的后面和远距离物体）。这得益于作者的自回归渐进范式，在利用前一步预测的基础上，使用更精细的预测进行深度估计时，能够保持连贯和光滑的深度估计。其次，作者的DAR在估计小而细的物体或长距离视觉上较小的物体（如椅子下的柱子）的深度时，表现得更加准确。这些观察进一步证明了作者的DAR的优势。

定量结果在KITTI数据集上的表现 为了进一步证明作者提出的DAR在户外场景中的优越性，作者在表3中报告了在KITTI数据集上的结果。与最先进的自监督模型Depth Anything相比，作者的DAR-small具有相似的模型大小，但实现了更好的性能，说明作者提出的DAR的优越性和潜力。与最先进的监督模型Ecodiese相比，作者的DAR-small具有较小的模型大小，并实现了更好的性能。值得注意的是，放大的版本DAR-Large建立了新的SOTA性能，在所有指标上（特别是RMSE上）都超过了当前的SOTA（Depth Anything）。

在KITTI数据集上，作者进行了以下定性比较。从图中可以看出，DAR保留了细粒度的边界细节，并生成了更多的连续深度值，进一步证明了作者的新基于AR的框架的有效性。

Zero-shot Generalization

不同于SOTA零样本迁移学习方法（Depth Anything [63]），该方法需要在大规模数据（61M）上进行预训练才能实现有效性能，作者表明，仅在单个NYU Depth v2数据集上训练作者的模型也能获得良好的泛化效果。表4展示了定量结果。可以看出，DAR在未见过的数据集上取得了不错的结果，证实了DAR的泛化能力。

Ablation Study

作者进行全面的消融研究，以检查两个子-AR目标及其各自组件的有效性，并扩大规模。本节中呈现的所有实验都在NYU-Depth-V2上进行。作者选择Depth Anything的backbone作为基准模型。比较结果报告在表5中。请注意，每个子-AR目标和其组件都提高了基准性能，支持作者的假设，即AR模型是一种有效的单目深度估计器。此外，通过将模型规模扩展到2.0B，DAR在所有指标上实现了最佳性能，证明了DAR的强扩展性。作者还对bin数N进行了消融研究，并在补充材料中展示了DAR每个步骤的定性结果。

Limitations

作者需要承认以下局限性。首先，作者应用了多步渐进范式来预测深度，这使得预测更加平滑连续，但同时也可能导致边界模糊和降低锐度。其次，由于作者使用了自回归Transformer，DAR模型的参数数量相对较高，特别是在扩展模型规模时。然而，作者相信可以通过大型模型蒸馏或轻量级自回归Transformer基础模型设计技术在复杂度和准确性之间取得进一步的改进。

5 Conclusions

在本文中，作者提出了一种新颖的深度自回归（DAR）建模方法，以将可扩展性和泛化引入基于自回归（AR）的单目深度估计（MDE）框架中。作者的关键思想是将MDE任务转换为两个平行的自回归目标，即分辨率和粒度，这一灵感来源于MDE在这两个方面的有序属性。

此外，作者提出了DAR Transformer和Multiway Tree Bins策略来实现这两个自回归目标，并通过所提出的Bin Injection模块将它们连接起来。

作者在几个基准数据集上验证了方法的有效性，并展示了其性能显著优于现有SOTA方法。作者提出的DAR还为将自回归深度估计集成到现有的基于自回归的基础模型中提供了一种有前景的方式。

参考文献

[0]. Scalable Autoregressive Monocular Depth Estimation.

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

ZJU/蚂蚁集团/港科技联合提出深度自回归模型DAR，将自回归大型模型应用于单目深度估计 ！

正文

请到「今天看啥」查看全文

1 Introduction

2 Related Work

3 Method

Preliminaries

Overview

(adsbygoogle = window.adsbygoogle || []).push({}); Resolution Autoregressive Objective

Other Details

4 Experiments

(adsbygoogle = window.adsbygoogle || []).push({}); Datasets and Evaluation Metrics

Comparisons with Previous Methods

Zero-shot Generalization

Ablation Study

Limitations

5 Conclusions

参考文献

请到「今天看啥」查看全文

ZJU/蚂蚁集团/港科技联合提出深度自回归模型DAR，将自回归大型模型应用于单目深度估计！

Resolution Autoregressive Objective

Datasets and Evaluation Metrics