专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

Meta革新三维重建！Make-A-Texture：3秒快速生成高质量纹理网格！

3D视觉工坊 · 公众号 · · 2024-12-29 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Make-A-Texture: Fast Shape-Aware Texture Generation in 3 Seconds

作者：Xiaoyu Xiang, Liat Sless Gorelik, Yuchen Fan, Omri Armstrong, Forrest Iandola, Yilei Li, Ita Lifshitz, Rakesh Ranjan

机构：Meta

原文链接：https://arxiv.org/abs/2412.07766

1. 导读

我们提出了Make-A-Texture，这是一个新的框架，可以根据给定的3D几何图形的文本提示有效地合成高分辨率纹理图。我们的方法使用深度感知修复扩散模型，在由自动视图选择算法确定的优化的视点序列中，渐进地生成跨多个视点一致的纹理。我们的方法的一个重要特点是其非凡的效率，在单个NVIDIA H100 GPU上仅用3.07秒的端到端运行时间就实现了完整的纹理生成，明显优于现有的方法。这种加速是通过优化扩散模型和专门的反投影方法来实现的。此外，我们的方法通过选择性地掩蔽非正面的面和开放表面对象的内部面，减少了反投影阶段的伪影。实验结果表明，制作纹理匹配或超过其他国家的艺术方法的质量。我们的工作显著提高了纹理生成模型在真实世界3D内容创作中的适用性和实用性，包括交互式创作和文本引导的纹理编辑。

2. 引言

在游戏、电影以及大多数数字3D体验中，物体通常被表示为网格（几何形状）和纹理（表面贴图）。考虑到每款游戏或电影所需的大量物体，手动制作和绘制如此庞大的物体目录可能会耗费大量劳动且枯燥乏味。近期，AI驱动的纹理合成工作取得了进展，如SyncMVD、Paint3D和Meshy，这些工作已经开始为艺术家提供工具，这些工具可以根据文本提示自动为任意类别的3D物体生成纹理。尽管前景看好，但这些方法通常需要一分钟以上的时间来生成完整的纹理，这阻碍了艺术家与不同提示和创意想法进行交互实验的能力。

我们的目标是开发一种极快的纹理合成方法，该方法能够在几秒钟内而不是几分钟内交付结果，并且质量可与最先进技术相媲美。我们相信，这将为艺术家快速创建高质量的主题资产库开辟新的可能性，并增强玩家的互动体验，使他们能够动态修改其虚拟世界。

为此，我们引入了Make-A-Texture，这是一个新颖的纹理合成框架，旨在利用文本到图像的扩散模型，高效且有效地解决为任意3D几何形状添加纹理的挑战。

我们的方法从一个笨拙但简单有效的基线开始，结合了多种轻量级技术来减少伪影并提高质量。为了将文本提示转换为高质量、多视图一致且与底层几何形状对齐的纹理，我们利用了一个具有修复和深度条件功能的深度感知生成模型，以渐进的方式生成纹理。

与以往通常在3D物体的10到30个不同视图上先进行生成阶段再进行细化阶段的方法不同，我们的方法通过自动生成仅6个最优视点来优化此过程。此外，为了避免将不必要的高光和阴影烘焙到纹理中，以往方法使用了Voronoi滤波或trimaps。相比之下，我们在法线图上实施了简单的阈值处理，以过滤掉非正面面。此外，我们还提出了一种更简单且更高效的方法，用于从2D像素反投影到3D网格的UV坐标。这些技术在一个GPU上高效实现，产生的纹理生成模型质量可与最先进方法[13]相媲美，同时速度提高了17倍。

3. 效果展示

给定一个无纹理的3D网格和一个文本提示，Make-A-Texture可以在3秒内有效地合成高质量的纹理

和SOTA方法的对比：

4. 主要贡献

与以往工作相比，Make-A-Texture具有以下优势：

多视图一致性：通过同时生成正面和背面视图，我们的工作实现了更好的全局一致性。虽然其他工作通过掩码生成方法调整了深度到图像的生成模型，但我们的方法在每个阶段动态控制深度和修复控制之间的平衡，从而带来了更好的局部内容一致性。

通用性：我们的方法不仅能够为广泛的网格类别生成纹理，还能有效处理各种网格类型，包括具有挑战性的非封闭网格。这种高适应性使我们的方法成为各种3D建模应用的实用解决方案。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研] 。

速度：我们提出了一种带有坐标映射和双线性溅射的快速反投影方法，与所有已知方法相比具有最低延迟。我们的纹理生成速度（在NVIDIA A100上为4.56秒；在H100上为3.07秒）显著快于以往方法，如SyncMVD（在A100上为81秒）和Meta 3D TextureGen[（在H100上为19秒）。

5. 方法

给定一个无纹理的3D几何形状M，我们的目标是生成一个与模型每个细节都精确对齐的纹理，同时符合提供的文本描述。为实现这一目标，我们采用2D文本到图像的扩散模型，以渐进的方式生成多视图一致的图像。然后，我们在屏幕空间中使用两种精细的过滤方法，然后再投影回UV空间，以最大限度地减少伪影并提高纹理质量。我们进一步通过修复来后处理纹理，用修复技术填充UV空间中缺失的区域。因此，所有可见区域都保证有纹理。最后，我们应用了各种加速和优化技术，以达到大约3秒的快速运行时间。

6. 实验结果

7. 总结

我们提出了Make-A-Texture框架，这是一个高效的解决方案，用于使用文本提示为给定的3D几何体生成高分辨率纹理。通过将深度感知的补画生成过程与自动视图选择算法相结合，我们的方法确保了复杂3D模型的地形保真度和一致性。我们方法的一个关键成就是其速度，能够在单台H100 GPU上大约3秒内生成1024x1024的纹理映射。这种显著的效率首次为实时应用打开了大门。此外，我们通过处理高光和阴影来增强输出纹理质量，并扩展了框架处理开放表面资产的能力。Make-A-Texture使纹理生成成为游戏和虚拟现实领域艺术家和普通用户更适用的工具。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球