0. 论文信息
标题:Material Anything: Generating Materials for Any 3D Object via Diffusion
作者:Xin Huang, Tengfei Wang, Ziwei Liu, Qing Wang
机构:Northwestern Polytechnical University、Shanghai AI Lab、S-Lab, Nanyang Technological University
原文链接:https://arxiv.org/abs/2411.15138
代码链接:https://xhuangcv.github.io/MaterialAnything/
1. 导读
我们提出了Material everything,这是一个全自动、统一的扩散框架,旨在为3D对象生成基于物理的材料。与依赖于复杂管道或特定情况优化的现有方法不同,Material提供了一种强大的端到端解决方案,可适应不同照明条件下的对象。我们的方法利用预训练的图像扩散模型,通过三头架构和渲染损失进行增强,以提高稳定性和材质质量。此外,我们在扩散模型中引入了置信度遮罩作为动态切换器,使其能够在不同的光照条件下有效地处理有纹理和无纹理的对象。通过采用由这些置信遮罩指导的渐进材料生成策略,以及UV-space材料细化器,我们的方法可确保一致的UV就绪材料输出。大量实验表明,我们的方法在广泛的对象类别和光照条件下优于现有方法。
2. 引言
基于物理的渲染(PBR)涉及几何形状、材质和光照之间复杂的相互作用。高质量的物理材质能够确保3D对象在各种光照条件下都呈现出一致且逼真的效果,这对于视频游戏、虚拟现实和电影制作等应用至关重要。熟练的艺术家可以使用Blender和Substance 3D Painter等软件创建逼真的纹理和材质。然而,这个创作过程既繁琐又耗时,需要图形设计方面的专业知识。尽管3D纹理绘制技术近期取得了进展,但它们往往无法准确模拟出分离光照和纹理的材质,导致产生如多余高光和阴影等烘焙阴影效果。
近期出现了多项针对为3D对象生成材质这一挑战的研究工作,但由于其复杂性和特异性,这些工作在很大程度上仍不切实际。这些方法要么需要对每种情况都进行特定的优化,要么依赖于像GPT4-V这样的多模态模型来检索对象不同部分的材质。因此,这些方法面临以下重大挑战:(1)可扩展性有限。每种情况都需要特定的参数调整,阻碍了创作过程的端到端自动化。(2)鲁棒性受损。涉及多个模型(例如,用于分割和分配的SAM和GPT)的复杂管道可能导致系统不稳定。(3)泛化能力有限。现有方法对光照敏感,难以处理包括真实光照(如真实世界扫描)、非真实光照(如生成的纹理)和无光照(如反照率)在内的广泛场景。为解决这些挑战,我们提出了Material Anything,这是一个全自动、稳定且通用的物理材质生成模型。我们的方法接受任何3D网格作为输入,并通过两阶段管道生成高质量的材质贴图:图像空间材质生成和UV空间材质细化。给定一个3D对象,图像空间材质扩散模型旨在为对象的每个视图生成PBR材质。
考虑到PBR数据的有限可用性,我们利用一个预训练的图像扩散模型,并通过使用新颖的三头架构和渲染损失将其调整为材质估计,这两者共同有助于稳定训练并弥合自然图像与材质贴图之间的差距。一旦训练完成,该模型就可以为一般3D对象渲染的视图自动生成材质,而无需预定义类别或部件级掩码。
为使图像空间材质扩散模型能够支持各种光照场景下的3D对象,我们引入了一个置信掩码来指示光照确定性,并提出了一种数据增强策略,以在训练期间模拟各种光照条件。(1)对于具有真实光照效果的网格,置信掩码被设置为较高值,使模型能够利用光照线索来准确预测材质。(2)对于无光照纹理的网格,置信度被设置为较低值,允许模型根据提示和全局语义线索生成材质。(3)对于生成的对象和无纹理对象(我们最初使用纹理生成方法来创建粗糙纹理),它们的纹理可能会呈现出违反物理定律的非真实光照效果,通常会导致高光和阴影被夸大。在这种情况下,置信掩码会被自适应地设置为不同的值,确保模型依赖于局部语义来生成合理的材质,因为光照线索是不可靠的。
虽然图像空间模型可以有效地为每个单一视图生成材质,但直接将其应用于3D对象会导致跨视图外观不一致。为了提高多视图一致性,我们引入了一种基于置信度的渐进式材质生成方案,该方案使用置信掩码来提示我们的扩散模型生成与先前视图一致的材质。在为所有视图逐步生成材质后,我们将它们投影到UV空间以进行进一步细化,从而获得3D一致且高质量的UV贴图,这些贴图对用户友好且易于编辑。
这些组件共同使Material Anything在材质生成方面取得了卓越的性能。为了训练模型,我们构建了Material3D数据集,其中包含超过8万个具有高质量PBR材质和UV展开的对象。大量实验表明,我们的方法相较于当前方法有了显著改进。
3. 效果展示
任何材质:前馈PBR材质生成模型,适用于各种纹理和光照条件下的各种3D网格,包括无纹理、仅反照率、生成和扫描的对象。
4. 主要贡献
我们的贡献总结如下:
• 一个全自动、稳定且通用的模型,能够为各种3D对象生成物理材质,实现了最先进的性能。
推荐课程:
彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用
。
• 一个具有光照置信度的材质扩散模型,能够用一个模型处理各种光照条件。
• 一个由置信掩码指导的渐进式材质生成方案,以及一个UV空间材质扩散模型,用于生成一致且UV就绪的材质。
5. 方法
如图2所示,Material Anything是一个为3D对象生成高质量物理材质的统一框架,能够适应各种光照和纹理场景。它有效处理(1)无纹理对象,(2)仅反照率对象(无光照效果),(3)扫描对象(真实光照),以及(4)生成对象(非真实光照)。与将这些场景视为单独任务处理的现有方法不同,我们的方法将它们统一在了一个框架下。为此,我们将3D材质生成重新定义为基于图像的材质估计任务,从而能够使用预训练的图像扩散模型并简化整体过程。我们的框架以两个核心组件为中心。首先,我们采用了一个配备置信掩码的基于扩散的材质估计器,该估计器为输入对象的每个视图生成材质。其次,我们引入了一种渐进式材质生成策略,该策略利用置信掩码来确保生成的材质在不同视图之间的一致性,并进一步整合了一个UV空间扩散模型用于材质细化。最后,我们提供了Material3D数据集的构建细节。
6. 实验结果
与纹理生成方法的比较。这些方法使用图像扩散模型直接绘制无纹理的对象,但是无法生成相应的材料属性。
与最优化方法的比较。NvDiffRec使用SyncMVD的纹理模型作为输入来估计材料。这些材料包括反照率(左上);粗糙度(右上);金属漆(左下角);凹凸(右下角)。
与检索方法的比较。输入是纹理对象,包括仅反照率对象和扫描对象。这些材料包括反照率(左上);粗糙度(右上);金属漆(左下角);凹凸(右下角)。
7. 总结
我们提出了Material Anything,这是一个统一的框架,用于为各种3D对象生成基于物理的渲染(PBR)材质,包括无纹理对象、仅反照率对象、生成对象和扫描网格对象。通过利用精心设计的材质扩散模型,我们的方法能够以前馈方式生成高保真材质。为了统一复杂光照条件下的各种输入对象,我们引入了一个掩码来指示不同光照下的置信度,这也增强了多视角材质的一致性。大量实验证明,我们的方法能够为各种对象生成高质量的基于物理的渲染材质,相较于现有方法有了显著提升。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球