专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
今日五莲  ·  名单公布!每人每月2000元! ·  20 小时前  
今日五莲  ·  名单公布!每人每月2000元! ·  20 小时前  
海南省教育厅  ·  解码《纲要》㉒ | 提升职业学校关键办学能力 ·  2 天前  
海南省教育厅  ·  解码《纲要》㉒ | 提升职业学校关键办学能力 ·  2 天前  
潮司电商客服外包  ·  快手小店 | 子账号及客服分流超详细设置教程 ·  2 天前  
潮司电商客服外包  ·  快手小店 | 子账号及客服分流超详细设置教程 ·  2 天前  
网信宝塔  ·  谨防孩子被流量“催熟” ·  2 天前  
51好读  ›  专栏  ›  智驾实验室

EDADEpth 用于单目深度估计的增强数据增强 !

智驾实验室  · 公众号  ·  · 2024-11-01 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

由于其具有文本到图像合成的特性,扩散模型 recently 在视觉感知任务上看到了上升,如深度估计。良好质量的数据集的缺乏使得为扩散模型提取微细语义上下文具挑战性。

细节较少的语义上下文进一步恶化创建有效文本嵌入的过程,这些嵌入将作为扩散模型的输入。

在本文中,作者提出了一种新颖的 EDADepth,这是一种增强的数据增强方法,可以用于估计单眼深度而无需使用额外的训练数据。作者使用 Swin2SR,一种超分辨率模型,来增强输入图像的质量。

作者采用 BEiT 预训练语义分割模型,以更好地提取文本嵌入。作者还引入了 BLIP-2 标记器来生成这些文本嵌入中的标记。

作者方法的新颖之处在于在基于扩散的单眼深度估计流水线中引入了 Swin2SR、BEiT 模型和 BLIP-2 标记器。作者的模型在 NYUv2 和 KITTI 数据集的 指标上达到了最先进的结果(SOTA)。在 RMSE 和 REL 指标上也实现了与 SOTA 模型相比较的结果。

最后,作者还展示了与基于扩散的单眼深度估计模型的最先进扩散相比,估计深度的可视化有改进。

I Introduction

深度估计是计算机视觉中的一个重要任务,它测量每个像素相对于摄像头的距离。深度对于诸如3D重构[1]和场景理解等操作是必需的。单目深度估计是深度估计的一种类型。由于单目图像不具有过范几何,因此确定每个像素的深度颇具挑战性。传统的深度估计方法使用了单目线索和阴影。然而,这些方法遇到了诸如图像光照变化和需要精确相机校准的挑战。这些限制提示作者需要一种基于每个像素回归的深度值估计技术,这是深度学习[3]中常见的一种任务。因此,深度学习方法已成为深度估计的可靠解决方案。

在计算机视觉中最常用的深度学习方法之一是 Transformer。Transformers使用自注意力机制,适合捕捉图像中的长程依赖性。在单目深度估计中,长程依赖性具有重要意义,因为它们可以捕捉单张图像中的不同区域的上下文信息。因此,Transformer已经成功应用于估计单目深度。此外,Transformer还可以有效地创建生成模型,如扩散模型。

扩散模型已经被广泛用于文本到图像生成和图像去噪。此外,数据增强技术在多个数据集上也显著提高了Transformer的性能。在本论文中,作者引入了一个名为EDADepth的分扩散模型,这是一种增强数据增强的基本单目深度估计。

在EDADepth中,作者创建了一个不使用额外训练数据的扩散 Pipeline ,遵循了ECoDepth[12]的足迹。作者的 Pipeline 通过数据增强增强输入图像。最初使用低图像质量的室内NYU-Depth V2 数据集,并输入到预训练的Swin2SR模型[14]以获得增强数据集。从输入数据到提取语义上下文,广泛使用了预训练的ViT[15]和CLIP[16]模型。作者的模型引入了一个新的思想,使用预训练的BEiT语义分割模型[17]来提取详细语义上下文,并使用BLIP-2分词器作为新方法将提取的语义上下文转换为语义嵌入器。此外,作者在两个流行的数据集NYUv2[13]和KITTI[18]上提供了定性和定量评估,以证明作者 Pipeline 的有效性。

本工作的关键贡献有三点:

  • 提出了一种新方法,通过增强输入图像来改善深度图的估计。增强输入用于语义上下文提取。
  • 作者采用了BEiT语义分割模型来提取语义上下文以创建文本嵌入。作者使用BLIP-2分词器作为从提取的语义上下文中创建文本嵌入器的新方法。
  • 在两个流行数据集NYUv2[13]和KITTI[18]上进行了定性和定量评估,以证明作者 Pipeline 的有效性。

II Related Works

随着人工智能(AI)技术的不断发展和广泛应用,对自然语言处理(NLP)的研究也逐渐深入。自然语言理解(NLU)作为AI领域中的一个重要分支,旨在识别、解释和生成自然语言文本,受到广泛关注。关于NLP的研究,有很多成功的实例,如语音识别、机器翻译和文本摘要等。然而,在对自然语言处理的研究过程中,仍然存在一些挑战,如语法分析、语义理解和信息提取等。因此,本文对自然语言理解方面的相关研究进行综述,以期为读者提供一个有关自然语言理解领域的概览。

Monocular Depth Estimation

在过去的十年里,许多方法 被提出来解决单目深度估计(MDE)问题。使用监督学习和自监督学习的单目深度估计是近年来的一些工作。2023年WACV组织的第一届单目深度估计挑战赛展示了Spencer等人[29]的工作。

在SYNS-Patches [30]数据集上,挑战赛中的许多参与者超过了基准线的性能。实现自监督学习模型的团队中,只有OPDAI团队的MDE模型是基于ConvNeXt-B [31]和HRDepth [32]模型。基于ConvNeXt [31]和DiffNet [33]模型的z.suri团队,以及基于MPViT [35]模型的MonoViT [34]团队的模型也表现良好。ZoEDepth [36]引入了一种通用且鲁棒性强的MDE方法,使用零样本迁移知识。

Diffusion-based MDE models

最近,由于其预训练特性的优势,扩散模型[10]在估计深度方面取得了更加显著的进步,因此在模式识别领域的自监督学习领域中引起了广泛关注。由于它们在正向过程中故意在数据中添加噪声,并在反向过程中尝试恢复原始数据,因此它们被广泛用于从图像到文本的生成中提取高级特征。

图2显示,在EDADepth中,使用Swin2SR模型增强原始RGB输入图像。BEiT模型从增强图像中提取详细的语义上下文,并将其传递到BLIP-2标记器进行标记。这些文本嵌入标记器被输入到预训练的U-Net模型以估计深度。

VPD [37]使用U-Net架构进行深度估计和参考分割。EVP [42]和MetaPrompts [40]通过添加层来创建有效的文本嵌入,从而增强现有VPD模型。最近,ECoDepth [12]引入了使用来自预训练ViT的嵌入的思想,用于详细语义信息的提取。现有的MDE模型[37, 12, 40, 42, 38]使用CLIP [16]文本标记器从语义上下文中生成文本嵌入标记器。作者的方法与传统图像到文本描述生成器(如VPD [37]中使用的CLIP [16])有所不同,提供了对输入图像更具有信息量和精确度的表示。

此外,PatchFusion [43]是首个在MDE流程中作为数据增强步骤增强低质量输入数据集的方法,而本题中首次使用Swin2SR模型增强输入数据集。为了有效提取增强数据集的语义上下文,作者提出了使用BEiT语义分割 [17]模型的创新思想(此外,为了有效提取文本嵌入标记,作者提出了应用BLIP-2标记器[44]的新方法)。

方法

Diffusion Models Overview

扩散模型[10]是一种生成模型,通过向输入中添加噪声,并学习逆向去噪过程来重构原始输入。本项目实现的分扩散模型是稳定扩散,是一种文本到图像的潜在扩散模型[10]。稳定扩散模型包含四个关键组件:编码器(E)、条件去噪自动编码器( )、语言编码器( )和解码器(D)。扩散过程如下建模:

其中 表示时间, 是固定系数,用以表示噪声时间表, 表示正态分布。

编码器(E)和解码器(D)在 之前进行训练,使得 . 使用U-Net作为预训练正向过程(使用LAION-5B数据集[45]),作者训练逆过程以进行深度估计。 的潜在扩散模型经过训练能使损失最小化,损失公式如下:

其中 由方程1计算得出。由方程1,作者得知扩散模型作为马尔可夫过程处理,成为回归问题,可以用于模拟分布 ,其中 是输出的深度, 是其对应的输入图像。由于已经有一个从稳定扩散预训练的模型, 可以用于预测密度函数梯度, 。分布 可以进一步建模为:







请到「今天看啥」查看全文