专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
掌上春城  ·  巨头宣布:永不合作! ·  2 天前  
昆明发布  ·  今起预约!“手把手”教你操作→ ·  2 天前  
春城晚报  ·  病情恶化!39岁男歌手突然去世 ·  3 天前  
51好读  ›  专栏  ›  3DCV

港大重磅开源!三维重建大一统!TEXGen:高分辨率纹理的美学盛宴!

3DCV  · 公众号  ·  · 2024-11-29 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:TEXGen: a Generative Diffusion Model for Mesh Textures

作者:Xin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi

机构:The University of Hong Kong、VAST、Beihang University、Tsinghua University

原文链接:https://arxiv.org/abs/2411.14740

代码链接:https://github.com/CVMI-Lab/TEXGen

官方主页:https://cvmi-lab.github.io/TEXGen/

1. 导读

虽然高质量的纹理图对于逼真的3D资产渲染是必不可少的,但很少有研究探索直接在纹理空间中学习,特别是在大规模数据集上。在这项工作中,我们背离了传统的依赖预训练的2D扩散模型来优化三维纹理的测试时间的方法。相反,我们关注的是在UV纹理空间中学习的基本问题。我们首次训练了一个能够以前馈方式直接生成高分辨率纹理图的大型扩散模型。为了促进高分辨率UV空间中的有效学习,我们提出了一种可扩展的网络架构,该架构将UV图上的卷积与点云上的注意层交错。利用这种架构设计,我们训练了一个7亿参数扩散模型,该模型可以在文本提示和单视图图像的指导下生成UV纹理图。一旦经过训练,我们的模型自然支持各种扩展应用,包括文本引导的纹理修复,稀疏视图纹理完成和文本驱动的纹理合成。

2. 引言

为3D网格合成纹理是计算机图形学和视觉领域的一个基础问题,在虚拟现实、游戏设计和动画等领域有着广泛的应用。然而,最先进的基于学习的方法由于可扩展性和数据限制,仅限于为特定类别生成纹理。最近,出现了基于测试时优化的方法,这些方法利用预训练的2D扩散模型,通过分数蒸馏采样或合成伪多视图来生成图像先验。虽然这些方法可以为各种物体生成纹理,但它们也存在一些缺点,如每个物体的优化和参数调整耗时较长、易受2D先验限制以及纹理生成中的3D一致性较差。

近年来,包括自然语言处理、图像和视频生成以及3D创作在内的各个领域都涌现出大量大型模型的开发。这些模型能够产生高质量的结果,并展现出卓越的泛化能力。它们的成功主要归因于两个关键因素:(1)可扩展且有效的网络架构,随着模型大小和数据量的增加,性能得到提升;(2)大规模数据集,有助于实现泛化。在本文中,我们通过扩大模型规模和数据量,探索构建大型生成模型以实现可泛化且高质量的网格纹理合成的潜力。

我们介绍了TEXGen,一个用于网格纹理合成的大型生成模型。我们的模型采用UV纹理贴图作为生成表示,因为它具有可扩展性并能保留高分辨率细节。更重要的是,它能够从真实纹理贴图中获得直接监督,而不完全依赖于渲染损失,使其与基于扩散的训练兼容,并提高了整体生成质量。先前的工作,如Point-UV-Diffusion和Paint3D,曾尝试利用扩散模型来学习网格纹理的分布。然而,这些方法都没有在通用物体数据集上实现端到端训练或前馈推理,从而导致误差累积和可扩展性问题。

为了在网格表面进行有效的特征交互,我们提出了一种可扩展的2D-3D混合网络架构,该架构在2D UV空间中进行卷积操作,随后在3D空间中进行稀疏卷积和注意力层操作。这种简单而有效的架构具有以下几个关键优势:(1)通过在UV空间中进行卷积操作,网络可以有效地学习局部和高分辨率细节;(2)通过将计算进一步提升到3D空间,网络可以学习全局3D依赖性和邻域关系,这些关系在UV参数化过程中会被破坏,从而确保全局3D一致性。这种混合设计使我们能够在3D空间中使用稀疏特征,而不是密集体素或点特征,以实现可控的计算量,同时保持3D连续性,使架构具有可扩展性。通过堆叠多个模块,我们训练了一个大型纹理扩散模型,该模型能够以前馈方式直接合成高分辨率纹理(例如,1024×1024纹理贴图),由单视图图像和文本提示指导。此外,我们的预训练模型支持多种应用,包括文本指导的纹理合成、图像修复以及从稀疏视图进行纹理补全。 推荐课程: 为什么说colmap仍然是三维重建的核心?

3. 效果展示

使用我们的方法生成的纹理的3D网格。我们展示了由我们的方法生成的3D网格的图库(左)和鸟模型的纹理贴图和多视图渲染(右)。我们的方法以高分辨率模拟网格纹理的分布,从文本和图像提示中生成高质量的纹理

纹理生成结果。对于给定的网格,我们的方法可以在引导单视图图像和文本提示的条件下合成非常详细的纹理。我们展示了来自纹理结果的三个新颖视图图像和来自纹理网格的代表性放大区域。还显示了生成的完整纹理贴图。

一个室内场景,所有网格都由TEXGen纹理化。我们使用带深度控制的文本控制网络为每个网格生成一个单一视图,并用文本和单一视图提示用TEXGen绘制它们。

4. 主要贡献

我们的贡献如下:

• 我们提出了一种新颖的网络架构,旨在学习高分辨率UV纹理贴图,其中我们构建了一个混合2D-3D去噪模块,以实现有效的特征学习。

• 基于该架构,我们训练了一个大型扩散模型,用于生成高分辨率纹理贴图。据我们所知,这是第一个能够以端到端方式生成纹理贴图的工作,无需额外阶段或测试时优化。

• 我们的方法取得了最先进的成果,并作为支持各种无需训练的应用的基础模型,如文本指导的纹理合成、图像修复以及从稀疏视图进行纹理补全。

5. 方法

TEXGen概述。(a)我们的训练流程概述。我们训练了一个扩散模型,通过从噪声纹理贴图𝑥𝑡中学习去噪,为给定网格𝑆基于单视图图像𝐼和文本描述生成高分辨率纹理贴图。我们的去噪网络的核心是我们提出的混合2D-3D模块。(b)单个混合模块的结构。(c)-(d)我们UV头模块和点模块的详细设计。

6. 总结 & 未来工作

在本研究中,我们提出了TEXGen,这是一个专为通用三维(3D)对象创建高分辨率纹理而设计的大型生成式扩散模型。TEXGen摒弃了依赖预训练二维(2D)扩散模型且需在测试时进行优化的传统方法。相反,我们的模型通过利用一种新颖的混合2D-3D模块,该模块能够熟练地管理局部细节保真度和全局3D感知交互,从而直接高效地合成精细且连贯的纹理。TEXGen能够以前馈方式生成高分辨率纹理贴图,并支持多种零样本(zero-shot)应用,包括文本引导的纹理修复、稀疏视图纹理补全和文本到纹理的合成。作为首个能够为通用对象生成纹理的前馈模型,TEXGen在该领域树立了新的基准。我们预计,我们的贡献将激励并促进纹理生成领域乃至更广泛领域内的进一步研究和发展。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、视频\图像生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球 ,已沉淀6年,星球内资料包括: 秘制视频课程近20门







请到「今天看啥」查看全文