专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
印象笔记  ·  低能量自救指南:如何快速提升能量? ·  2 天前  
混沌学园  ·  50块钱的烤鸭,贵不贵? ·  2 天前  
51好读  ›  专栏  ›  极市平台

ECCV 2024|精细到毛发程度,颠覆性几何细节的扩散模型GeoWizard

极市平台  · 公众号  ·  · 2024-07-08 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨CVer粉丝投稿
来源丨CVer
编辑丨极市平台

极市导读

输入单张图片,就能恢复高精到毛发细节的深度和法向! >> 加入极市CV技术交流群,走在计算机视觉的最前沿

论文: https://arxiv.org/pdf/2403.12013

代码: github.com/fuxiao0719/GeoWizard

Hugging Face地址:

https://huggingface.co/spaces/lemonaddie/geowizard

作者:香港中文大学、阿德莱德大学、香港科技大学、上海科技大学、香港大学、光影幻象

输入单张图片,就能恢复高精到毛发细节的深度和法向!近日,一个单目几何估计模型GeoWizard火了,因其强大的泛化性和准确度在社群取得了广泛的关注。

X(Twitter)专业测评人员Gradio惊喜于输入图灵奖得主Yann LeCun的照片也能取得高质量的几何结果。

连ControlNet的一作都在最新的项目IC-Light[1]上称赞并转发其效果!

从单目图像估计三维几何 (深度和表面法向) 是计算机视觉中一个基础但极具挑战的任务, 它在自动驾驶、几何重建、AR/VR等各种下游应用中发挥着重要作用。然而, 这一领域的进展受限公开数据集的两大缺陷:

1) 多样性低: 大多数据集仅限于特定场景, 如自动驾驶和室内环境,基于这些训练集的模型在应用到训练域外图像时通常泛化能力比较差。

2) 准确性差: 为了增强数据集的多样性,一些研究利用多视角立体(MVS)重建或自训练等方法为未标注数据生成伪标签,这些伪标签往往不完整或质量较低。

为此,来自香港中文大学、香港大学等机构的研究者提出了GeoWizard,该模型能够为任何场景的图像 (甚至是由 AIGC 生成的图像) 生成高质量的深度和法向信息。相比于传统简单的提升训练数据和计算量,研究者利用了已在数十亿张图像上预训练的扩散模型Stable Diffusion的先验知识,从而只需在少量高质量的数据(26w)上微调就可以取得具有强大的泛化性。

不同于传统单独估计深度或者法向,研究者提出了一种基于跨模态注意力机制的用于估计深度和法向的基础扩散模型,能够捕捉复杂的高精几何,并使得两个表征取得了高度的一致性,在细节程度超越了Metric3d V2[2]和DepthAnything[3]。为了引导扩散模型规避由不同场景数据混淆而造成的几何模糊性,作者进一步提出了一种简单有效的场景分布解耦策略。GeoWizard在深度和法向的零样本基准上均实现了 SOTA 性能,并展现了强大的泛化性。大量下游场景的应用进一步验证了其几何信息的有用性。

2. GeoWizard

在微调过程中, GeoWizard通过变分自编码器VAE将图像、深度和法向编码到潜空间为相应的隐变量,同时也嵌入了图像的CLIP提供更全局的引导,增强模型在不同高斯初始化下的鲁棒性。两组几何变量接入U-Net后在几何切换器的引导下生成深度和法向两个领域的变量。此外,我们还引入了场景提示以针对三种可能的场景布局(室内/室外/物体)的分布。在推理过程中,给定输入图像、场景提示、初始深度噪声和法线噪声,GeoWizard可以联合生成高质量的深度和法向。

几何扩散模型的分布假设

相比于传统基于CNN和transformer结构的判别式模型,我们采用了基于扩散分布的生成模型来同时建模深度和法向的分布。给定输入图像x,深度d和法向n可以通过马尔可夫概率形式的公式(下图)来建模,主要难点是优化这个扩散转移模型,或者噪声预测模型。

跨模态的联合深度和法向预测

深度和法向具有高度的相关性,法向描述了物体表面的变化和起伏,而深度描述了空间排布,引导了法线的方向。GeoWizard 没有单独处理深度或法向估算,而是在一个统一的框架内联合估计深度和法向。受 Wonder3D[4]的启发,我们引入几何切换器将单一预测RGB的扩散模型扩展为同时预测深度和法向。为了实现互相引导的几何优化,我们将U-Net中的自注意力机制改为跨模态的交叉注意力机制(如上图所示),从而使两个表征之间相互交换信息并保持高度几何一致。我们按如下方式计算注意力模块中的Q、K和V:

场景分布解耦器

我们发现在不同的场景下,估计的几何形状会呈现出偏离场景分布的异样,通常表现为前景物体发生显著的压缩。这种情况是训练数据通常描述了不同空间结构,从而扩散模型难以预测符合场景分布的正确空间布局。例如,户外场景通常具有无限的深度范围,室内场景具有受限的深度范围,而无背景的物体则具有更窄的深度范围。数据统计(上图左边)印证了我们的假设的正确性,即不同场景呈现出明显不同的空间结构。

为了应对在混合场景数据上训练造成的几何估计模糊性,我们进一步提出了一种简单而有效的策略——场景分布解耦器(上图右边所示),通过在U-Net中加入场景提示的one-hot向量编码,将不同场景的复杂数据分布分解成不同的子分布(室外、室内和无背景物体),这种策略使得扩散模型能辨别不同的场景布局,从而捕捉到更准确的三维几何细节。

优化函数

我们采用多尺度的噪声来保留深度图和法线图中的低频细节,因为在相邻区域中(如地面、墙面、桌面),几何信息通常是非常相似甚至一样的,这种方式被证明比单尺度噪声更有效。我们利用v-prediction作为学习目标:

3. 实验结果

相对深度估计

我们在NYUv2、KITTI、ETH3D等6个基准数据集上相对深度的定量评价,GeoWizard取得了相对SOTA的结果。尽管DepthAnything在其中三个真实数据集上获得了最好的定量数据,但它在域外图像上表现出明显的性能下降。这可能是因为尽管DepthAnything是在6350万张图像上训练的,但其判别性限制了它在与训练图像明显不同的领域上进行泛化的能力,另一方面,DepthAnything未能捕捉到丰富的几何细节。和鲁棒的深度估计器Marigold[5]相比,GeoWizard在前景布局上取得了更准确的结果。

法向估计

我们在下表中给出了表面法向的定量比较,GeoWizard达到了SOTA的性能。和DSINE[6]相比,GeoWizard可以恢复更细粒度的细节。在域外数据的比较中,GeoWizard生成了惊人的细节和正确的空间结构。DSINE可以恢复粗糙的形状,但难以产生高频细节,如发际线、建筑纹理和树枝。(注:由于NYUv2等数据集中GT法向存在很大的噪声,所以由数字反应的性能差距是片面的)

域外数据的几何比较

作为判别模型,DepthAnything和DSINE在训练数据域外的图像上表现出明显的性能下降,特别是对于由AIGC生成的虚拟图像。相比之下,基于扩散模型的GeoWizard在细节、空间准确度各个方面都展现了强大的泛化能力和正确性。(更多样本请参考文章附录)

消融实验

我们首先研究了几何切换器的性能。当去除跨域几何切换器(w/o geometry switcher)时,整体几何一致性显著下降,验证了跨域自注意机制有效地将两种表征关联起来。我们还训练了两个扩散模型来分别学习深度和法向(独立模型),但这大大降低了所有评估指标的性能。当去除场景分布解耦(w/o Scene Decoupler)时,所有子域的几何性能都下降了。

4. 应用

基于几何先验的三维重建

我们利用单目几何线索进行表面重建。与Omnidata v2、DSINE相比,GeoWizard较为一致地生成更精细的细节,具有更高的保真度和频率细节(如空气,衣服褶皱,金属和木材纹理,以及薄扶手)和更精确的3D空间结构。此外,我们可以基于这些几何线索,以帮助表面重建方法MonoSDF[7]生成高质量的几何(见下表,在ScanNet上)。

基于深度的新视角合成

利用GeoWizard生成的深度信息来增强基于深度的绘制方法[8]。如下图所示,与Midas V3.1相比GeoWizard引导生成了更加连贯和真实的结构,实现了更好的新视角合成结果和更逼真的3D摄影效果。

二维内容生成

我们采用基于深度/法向的ControlNet,它以空间结构作为输入来间接评估几何形状。如下图所示,在深度和法向条件下,GeoWizard生成的彩色图像与原始输入图像在语义上更加一致。然而,以DepthAnything的深度图和DSINE的法线图为条件生成的图像无法与输入图像保持相似的三维结构。

更多信息请见原文。

参考文献







请到「今天看啥」查看全文