本文约1000字,建议阅读5分钟
我们介绍了一种更高效的3D三平面架构,可应用于大幅度提升3D生成模型的训练和合成质量。
随着对更高质量视频制作和3D资产的需求持续增长,帮助减轻相关成本的智能艺术家工具的需求也在不断增加。更具体来说,3D AI艺术家工具有可能极大地自动化或促进内容创作过程。这类工具的关键组件是其底层的3D神经表示:即模型如何编码和理解3D世界。本论文提出了更加表达性、效率高且解耦的3D神经表示,从一个新颖的表示开始,该表示结合了可泛化和过拟合先验的知识。通过这种表示,我们提出了一种新方法,以促进高质量的局部3D形状编辑和部件混合。接下来,我们介绍了一种更高效的3D三平面架构,可应用于大幅度提升3D生成模型的训练和合成质量。然后,我们探讨了这些高质量3D GANs所带来的新应用,特别是分析了学习到的潜在空间的能力和局限性。最后,我们提出了一种混合型3D神经表示,结合了隐式表示和显式数据结构,以提供更高质量的3D合成,并对局部和全局属性提供更精细的控制。贯穿其中,我们展示了这些应用于3D艺术家工作流中的常见任务,利用基于所提出的3D神经表示构建的AI工具,帮助促进内容创作管道的实现。1.1 内容创作的3D神经表示
高质量内容创作在观众需求和制作成本上都在持续增长。例如,最近的大片《阿凡达:水之道》仅在视觉特效镜头上的投入就超过了2.5亿美元。类似地,现代视频游戏,如《博德之门3》和《黑神话:悟空》的制作成本也膨胀至超过1亿美元。这些成本中的很大一部分是由于需要极其熟练的3D艺术家花费大量时间和精力来制作如此高质量的内容。自然,电影工作室持续投入资源,建立能够更轻松促进内容创作的基础设施和艺术家工具。最近,生成AI研究取得了巨大进展,催生了多个有前景的文本到图像、文本到3D以及文本到视频的扩散模型。尽管生成的媒体内容质量持续大幅提升,这些模型仍然很少集成到主流的生产流水线中。这一方面是因为从传统的艺术家工作流程转变需要相当大的开销,另一方面,当前的模型没有提供艺术家在现有工具中拥有的控制水平。例如,许多当前的生成AI模型仅接受文本提示作为输入,这导致了对文本提示设计的困惑。此外,修改文本提示往往会导致不希望出现的全局变化,使得只编辑生成内容的特定区域或小组件变得非常困难。为了解决这些问题,本论文探索了底层神经表示的设计空间,这决定了模型如何理解周围的3D世界。我们认为,为了使模型能够生成高质量的内容,并且为用户提供对期望的局部和全局属性的控制,底层表示必须具备以下特点:- 解耦性——允许用户控制指定的内容属性,如纹理或几何形状。
1.1.1 应用与先前的方法
在内容创作中,3D资产传统上使用显式3D表示法,如多边形网格或点云,因为这些表示法易于导入流行的3D建模软件,并且在现代流水线中渲染高效。然而,它们在高分辨率下的存储成本较高,且更重要的是,需要大量的人工努力和用户专业知识来操作和编辑。最近,隐式神经表示法,如占据率或符号距离场,因能够从传感器数据中学习并用于自动数据清理、模型补全、形状编辑和形状合成而变得流行。当前的隐式神经表示法可以分为两类:一种是针对单一物体实例的过拟合表示,另一种是表示一组物体的集合。然而,这两者都无法准确编辑神经场景表示:一方面,过拟合物体的方法能够实现高精度的重建,但无法泛化到未见过的物体配置,因此不支持编辑;另一方面,表示物体家族的方式具有泛化能力,但只产生近似的重建结果。在第二章中,我们将探讨结合过拟合和可泛化先验的表达性神经表示,以支持高质量的形状重建和编辑。为了聚焦更具体的3D内容创作子领域,近年来,对可访问的高质量3D虚拟形象(可动画化和可定制化)创作的需求日益增长。尽管像3D可变形模型这样的显式表示提供了直观的编辑和动画控制,并且在单视角面部重建方面表现出色,但它们难以捕捉几何和外观细节。隐式神经表示,如符号距离函数(SDF)或神经辐射场,可能比显式表示法具有更高的质量和泛化能力,但它们在训练过程中学习的成本可能非常高。例如,考虑训练一个3D GAN来无监督生成高质量的多视角一致性图像和3D形状。如果直接适配神经辐射场表示,3D GAN训练很快会变得过于计算密集,导致生成图像的质量和分辨率受到限制。另一方面,采用不一致的简化方法(例如使用2D CNN渲染特征图)会影响多视角一致性和形状质量。在第三章中,我们将探索一种更高效的3D神经表示,以促进更高分辨率和多视角一致的3D GAN。然而,表达性和效率并不足够;在第四章中,我们将探讨直接应用预训练3D GAN生成和动画化3D虚拟形象的局限性。尽管3D GAN在图像质量和多视角一致性方面优于基于2D变形操作或2D GAN的先前方法,但底层神经表示决定了用户对指定属性(如纹理或几何形状)的控制程度。如果表示法仅学习一个潜在空间,那么最好的办法就是采用先前的方法,在潜在空间中搜索与特定编辑(如年龄、发型或性别)相关的方向。这些方法通常较为脆弱,并且很大程度上依赖于训练数据集中的属性分布,巧合地学习一个解耦的潜在空间。在第五章中,我们将通过探索一种混合型3D神经表示来解决这些局限性,这种表示不仅质量高、可泛化,而且能够显式解耦纹理、几何形状、表情和身份等属性。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU