24年10月来自斯坦福和伯克利分校的论文“The Scene Language: Representing Scenes With Programs, Words, And Embeddings”。
场景语言,是一种视觉场景表示,可以简明而准确地描述视觉场景的结构、语义和身份。它用三个关键组件来表示场景:指定场景中实体的层次和关系结构的程序、总结每个实体语义类别的自然语言单词,以及捕获每个实体视觉身份的嵌入。给定文本或图像输入,可以通过无需训练的推理技术从预训练语言模型中推断出这种表示。可以使用传统、神经或混合图形学渲染器将生成的场景渲染成图像。总之,这形成了一个鲁棒的自动化系统,用于高质量的 3D 和 4D 场景生成。与场景图等现有表示相比,该场景语言可以生成具有更高保真度的复杂场景,同时明确地对场景结构进行建模,以实现精确的控制和编辑。
如图所示:使用场景语言进行结构化场景生成和编辑。其开一个场景表示,用于 3D 场景生成和编辑任务。给定文本场景描述,可以通过预先训练的大语言模型推断表示,以 3D 形式呈现,并按照语言指令进行编辑。该表示包含一个程序,该程序由绑定到单词的语义感知函数组成,提供高可解释性和直观的场景编辑界面,以及允许使用精细控制进行编辑的嵌入,例如,通过更新控制场景全局属性的
将
的样式从用户输入图像迁移到生成的场景。
程序不仅可以指定场景组件之间的关系,还可以指定层次结构和重复等结构模式,使其适合作为场景结构的明确描述。先前的研究提出使用以执行命令序列形式的程序作为以目标为中心的表示,然后使用神经执行器将程序渲染为 3D 形状(Tian,2019;Sharma,2018;Deng,2022)。相比之下,ShapeAssembly(Jones,2020)在其程序表示中引入了具有语义上有意义的函数名(例如“椅子”和“靠背”)的高级函数。ShapeAssembly 采用了函数抽象的设计原则,这使得组件之间的层次关系清晰,程序可编辑性更好。然而,ShapeAssembly 使用长方体作为形状表示,不对外观进行建模。
上述所有表示都需要 3D 数据集进行训练。最近,随着语言模型 (LM) 的发展,一些方法 (Zhou et al., 2024b; Hu et al., 2024; Yamada et al., 2024; Sun et al., 2023; Zhang et al., 2023a; Tam et al., 2024) 提出使用零样本 LM 推理来生成将渲染到场景中的程序。这些方法在特定图形学渲染器(例如 Blender)的程序语法之上运行(Community,1994),并且它们不允许在高维嵌入空间中使用参数。
视觉生成模型的潜空间可以作为视觉场景的表示空间。这种潜空间可以有效地捕捉场景的精确视觉内容,包括几何和外观细节,并且可以直接推断,例如在变分推理(Kingma,2014)和模型反演(Zhu et al., 2016)中。最近,文本-到-图像的扩散模型,在图像合成中表现出了显著的效果。这类模型提供了几个候选表示空间,包括文本嵌入空间(Gal et al., 2023)、低秩网络权重(Hu et al., 2022)、全模型权重(Ruiz et al., 2023)或扩散过程中的噪声向量(Song et al., 2021; Mokady et al., 2023; Ho et al., 2020)。然而,这种表示通常不提供可解释的语义或明确编码分层场景结构。