专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

谷歌新作Orchid：深度估计、法线预测、图像生成大一统！

3DCV · 公众号 · · 2025-02-11 11:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Orchid: Image Latent Diffusion for Joint Appearance and Geometry Generation

作者：Akshay Krishnan, Xinchen Yan, Vincent Casser, Abhijit Kundu

机构：Google DeepMind、Georgia Institute of Technology、Waymo

原文链接：https://arxiv.org/abs/2501.13087

1. 导读

扩散模型是图像生成的最新技术。它们在大型数据集上接受训练，捕捉已用于修复、深度和(表面)法线预测等任务的表达性图像先验。然而，这些模型通常被训练用于一个特定的任务，例如，用于颜色、深度和正常预测中的每一个的单独的模型。这种模型没有利用外观和几何形状之间的内在联系，经常导致不一致的预测。

在本文中，我们提出使用一种新的图像扩散先验，联合编码的外观和几何。我们介绍了一个扩散模型兰花，包括一个变分自动编码器(VAE)来编码颜色，深度和表面法线到一个潜在的空间，和一个潜在的扩散模型(LDM)来产生这些联合潜在的。Orchid直接从用户提供的文本中生成照片级的彩色图像、相对深度和表面法线，并可用于无缝地创建图像对齐的部分3D场景。它还可以执行图像条件任务，如联合单目深度和法向预测，并在准确性上与专为这些任务设计的最先进的方法相竞争。最后，我们的模型学习了一个联合先验，该先验可以用作许多纠缠外观和几何的逆问题的零炮正则化。例如，我们展示了它在颜色深度法向修复中的有效性，展示了它对从稀疏视图生成3D的问题的适用性。

2. 效果展示

ORCHID是一种用于联合颜色、深度和法线生成的统一图像扩散模型。它是一种灵活的生成先验，可用于多种应用。

可以在单个扩散过程中从文本提示联合生成颜色、深度和表面法线图像

也可以共同产生深度和表面法线从输入图像与额外的图像条件微调。我们在下面对输入彩色图像的联合深度和表面法线预测进行了可视化，并将我们的结果与之前使用扩散模型对联合深度法线预测的工作进行了比较。

3. 方法

我们首先训练一个新的VAE来联合编码颜色、深度和潜在空间的法线。然后，我们在联合潜在空间上微调用于文本条件去噪的预训练潜在扩散模型。我们在VAE训练期间使用蒸馏损失来确保联合潜在空间在结构上类似于用于预训练的仅颜色潜在空间。推荐课程：单目深度估计方法：算法梳理与代码实现。

经过训练的模型可以很容易地用于从文本(a)生成颜色、深度和法线。对于图像条件深度和法线预测(b)，我们进一步微调与一个额外的只有颜色的潜在输入，同时扩散相同的联合潜在。

4. 实验结果

5. 总结

在这项工作中，我们提出了Orchid，这是一种联合外观和几何扩散先验，它将颜色、:深度和表面法线编码在统一的潜在空间中。这使得Orchid能够高效、无缝地使用一个模型生成3D重建。在Orchid中捕获的联合外观和几何先验可以用于名种下游任务。值得注意的是，Orchid能够使用单个模型从给定的文本提示中联合生成图像、深度和表面法线。使用单个彩色图像作为条件从Orchid中采样可以产生准确和一致的深度和法线与专门为这些任务训练的SOTA单目深度和法线预测模型相媲美。它还擅长作为无条件扩散先验进行颜色、深度和表面法线的联合补画，这是Orchid 的独特能力。我们预计 Orchid 将为新视图合成、稀疏深度的密集化以及解决涉及外观和几何的逆向问题等任务的进步铺平道路。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结