尽管最近在单目深度估计的判别方法上取得了成功,但其质量仍然受到训练数据集的局限。生成方法通过利用中间数据集上的强大先验知识来缓解这一问题。最近的研究表明,经过微调的较大文本到图像扩散模型在深度估计任务上达到了最先进的结果。
同时,自回归生成方法,如视觉自回归建模(VAR),在条件图像合成方面显示出有前景的成果。遵循视觉自回归建模范式,作者介绍了一种基于视觉自回归 Transformer 的自回归深度估计模型。
作者的主要贡献是DepthART 一种新提出的训练方法,将其表述为深度自回归精炼任务。与原始VAR训练程序使用的静态目标不同,作者的方法利用动态目标表述,可以实现模型自我精炼,并在训练过程中集成多模态指导。具体而言,作者使用模型预测作为训练的输入,而不是 GT 标记图,将目标定义为残差最小化。
作者的实验表明,所提出的训练方法显著优于通过下一级预测在深度估计任务上实现视觉自回归建模的方法。
在Hypersim上利用作者的方法训练的视觉自回归 Transformer 在一批未见的基准测试集上比其他生成和判别 Baseline 优越。
Introduction
单目深度估计(MDE)是计算机视觉中的一个基本问题。深度图能提供一种有用的中间场景表示,用于在物理环境中做出决策。从单一图像中恢复深度数据,可将实现不同应用的高实用价值,包括但不限于空间视觉智能 [23, 17],自动驾驶 [22, 16] 和机器人学 [20]。
早期的基于学习的策略 [1],例如Fergus 2014年)将单目深度估计问题作为监督回归任务来解决。然而,这些方法具有领域特定性,严重依赖标注数据集。因此,它们受到了可标注数据量少导致的有限泛化能力的影响。近期有一些 Proposal 克服这个局限的技术,如MiDaS提出通过使用混合数据集上的仿射不变深度训练方案来缓解这个问题。虽然提出了提供标注数据来源的新方法(Yang等人,2024),但大规模获取精确深度标注仍然具有挑战性。
最近的研究强调了在互联网规模图像标题数据集上最初训练的文本到图像扩散模型作为单目深度估计的先验的有效性。这些方法需要微调一个带有深度标注的小型合成数据集预训练的扩散模型,得到能够生成准确且高度详细的深度图的模型。同时,自动回归模型(如视觉自回归模型(VAR)(Tian等人,2024)和LLaMA-Gen(Sun等人,2024))在类或文本指导设置中展示出生成高质量图像的能力。这些发现推动了对自动回归深度估计技术的探索,提供了一个有前景的新方向。
在本工作中,作者基于视觉自回归模型(Tian等人,2024)提出了一种新的单目深度估计方法。作者核心贡献是新形成的深度自回归微调任务训练方式。作者的方法使用模型的自身预测构建动态目标,而不是在训练中依赖 GT 标记映射。通过将目标定义为残差最小化并使用模型预测作为输入,作者在自动回归模型训练和推理阶段之间建立了桥梁,从而提高了深度估计质量。通过与流行 Baseline 在相似条件下的广泛比较来验证作者的模型。据作者所知,这是第一个自动回归深度估计模型。同时,它在与流行深度估计 Baseline 的比较中,表现出了良好的性能或优于竞争对手。
最后,作者将作者的贡献总结如下:
通过开发深度自回归Transformer,为深度估计引入了一种新的自动回归图像模型应用。
作者提出了一种新的深度估计训练范式,称为深度自回归微调任务(DepthART),它促进了自我改进并融合了训练中的多模态指导。
通过广泛的实验,作者证明了使用DepthART训练的深度自回归Transformer在训练期间未见过的多个基准测试上实现了具有竞争力或优越性的性能。
Related work
Monocular depth estimation
基于学习的光学单目深度估计方法可以大致划分为两个主要分支:度量和相对深度估计方法。度量深度估计主要关注在度量级上回归绝对预测。这些模型通常在小型、特定领域的数据集上进行训练,这限制了它们在各种环境下的有效泛化能力。同时,相对深度估计方法旨在估计深度直到未知的变化和尺度(SSI)或仅未知尺度(SI)。MiDaS(Ranftl等人,2020年)在多个特定领域的数据集混合上引入了变化和尺度不变的深度训练,显著提高了模型的泛化能力。尽管如此,深度预测 remained 几何上不完整,即模型预测无法构建点云。GP2(Patakin等人,2022年)通过提出端到端训练方案估计尺度不变、几何保持的深度图,解决了这一局限性。
同时,开发了两阶段的 Pipeline 来减少深度图的第二阶段中的位移模糊性(Yin等人,2021年)或升级深度图到度量级(Bhat等人,2023年)。此外,领域内的进一步发展受到各种先验融合,架构设计的改进和训练数据量扩充(Yang等人,2024年)的驱动。
Generative modeling
近年来,扩散模型已在各种计算机视觉任务上展示了它们的灵活性,包括图像生成(Ho等人,2020年;Rombach等人,2022年;Ho等人,2022年)、视频生成、3D物体建模等。除了这些应用外,扩散模型还成功地应用于其他问题,如深度估计(Saxena等人,2023年;Duan,Guo和Zhu,2023年;Saxena等人,2024年)、图像分割(Wang等人,2023年a;Amit等人,2021年)和目标检测(Chen等人,2023年)。
值得注意的是,Marigold 都证明了在大规模图像语义数据集LAION-5B(Schuhmann等人,2022年)上预训练的Stable Diffusion模型(Rombach等人,2022年)经过轻微的微调后,可以生成高质量深度图。这突显了利用预训练生成模型在不同领域增强深度估计准确性和鲁棒性的潜力。
Autoregressive modeling
尽管扩散模型仍是应用最广泛生成方法之一,但自回归模型的最近进步在各种生成任务上展现了巨大的潜力(Yu等人,2023年;Sun等人,2024年;Tianswet等,2024年;Ma等人,2024年)。这些方法依赖于由VQ-VAE(Van Den Oord,Vinyals等,2017年)或其派生物产生的离散标记图像表示。这些派生物通常包括架构改进、额外的遮挡技术(Huang等人,2023年)或引入对抗性和感知损失。
自回归图像合成通常可以表示为VQ-VAE标记的顺序生成(Esser,Rombach和Ommer,2021年),然后从VQ空间解码。许多方法采用了GPT-2(Radford等人,2019年)解码器仅架构来预测VQ-VAE标记序列。
然而,最近的一些工作(Tian等人,2024年;Ma等人,2024年)引入了预测多尺度标记映射而不是标记序列的概念。这种方法减少了结构退化的风险,降低了高分辨率图像的生成时间,从而实现了高质量类条件和文本条件图像生成。
Preliminary
下一级的视觉自回归模型
典型的自回归图像生成涉及按光栅扫描顺序预测单个图像标记物。然而,最近的工作(Tian等人,2024年)引入了一种新颖的自回归训练方法,用于条件图像生成 - 视觉自回归建模。他们并不是单独预测标记物,而是提出生成具有不同尺度的标记物映射。每个预测的标记物映射与前一个相比逐步提高分辨率,从而导致图像按尺度分解。
请注意,图2展示了VQ-VAE (Tian et al. 2024) 提供了一种单一的分解,然而,可以得到相同特征的不同轨迹。相比之下,DepthART可以进行多模态训练,与仅在视觉自回归建模(VAR)中使用的单模态指导相比,提供了多种微调途径。
在作者的方法中,作者采用了一种专门针对视觉自回归建模 Transformer (VAR)预训练的VQ-VAE修改版本进行调整。最初设计用于彩色图像,但作者观察到VQ-VAE (Tian et al. 2024)同样可以应用于编码深度图(参见图1)。
方法
在作者的工作中,作者将单目深度估计任务定义为图像相关的自回归生成问题。受到VAR的启发,作者开发了生成深度标记映射的深度自回归 Transformer ,给定了图像条件。作者的主要贡献是引入了名为Depth Autoregressive Refinement Task-DepthART的新训练过程。
深度自回归微调任务。原始的视觉自动回归建模[21]依赖于由预训练VQ-VAE编码器提供的尺度分解图像。在模型训练期间,模型预测从真实标记映射序列中预测下一个尺度标记映射。指导目标是VAR预测和VQ-VAE提供的相同尺度标记映射之间的交叉熵损失。将真实标记映射输入到模型将导致训练过程和推理过程之间的差异,以及在推理过程中累积的错误。
作者解决了这个问题,并将训练目标重新表述为一个深度自回归重采样任务(DepthART)。作者主要的目的是在训练期间让模型进行自我优化。因此,作者从模型预测中动态构建输入和目标。让作者考虑一个输入图像
以及对应的 GT 深度图
。作者首先将图像编码为一系列由 VQ-VAE 提供的 Token 映射
。结果图像 Token 映射作为模型的输入序列并作为深度图估计的条件。在本文方法中,构建动态监督目标的步骤首先为给定的图像 Token 映射进行模型推理。作者用以下式子表示预测深度 Token 映射:
接下来,作者将 GT 深度
以及相同的 VQ-VAE 编码器编码为连续特征
,并丢弃量化过程。利用编码深度特征
和一系列模型预测直到当前尺度的预测,作者可以构建残差预测目标
: