专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
LCA  ·  一棵树,让我觉得安静 ·  20 小时前  
最爱大北京  ·  2月22日 | 京城事儿全知道 ·  2 天前  
最爱大北京  ·  北京:马松莉被查 ·  2 天前  
康石石  ·  拿到藤校奖学金的作品集长什么样? ·  3 天前  
51好读  ›  专栏  ›  3DCV

斯坦福重新定义4D重建:一朵玫瑰的诞生与死亡

3DCV  · 公众号  ·  · 2024-12-15 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Birth and Death of a Rose

作者:Chen Geng, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu

机构:Stanford University

原文链接:https://arxiv.org/abs/2412.05278

官方主页:https://chen-geng.com/rose4d

1. 导读

我们研究了从预训练的2D基础模型中生成时间对象本质的问题——对象几何形状、反射率和纹理的时间演化序列,如盛开的玫瑰。与需要大量人工努力和专业知识的传统3D建模和动画技术不同,我们介绍了一种利用从预训练的2D扩散模型中提取的信号来生成这种资产的方法。为了确保对象内在特性的时间一致性,我们提出了时间状态引导提取的神经模板,它是从自监督学习的图像特征中自动获得的。我们的方法可以为多种自然现象生成高质量的时间对象内在特性,并在这些动态对象的生命周期中的任何时间,在任何环境光照条件下,从任何视点对这些动态对象进行采样和可控渲染。

2. 引言

如图1所示,一朵玫瑰从花蕾开始,花瓣逐渐展开,绽放出全部的光彩,最终凋零,结束其生命周期。这一不可避免且单向的演变——地球上所有生物共有的历程——无情地且按时间顺序地改变着它们的对象内在属性:几何形状、反射率和纹理。这些对象内在属性的变化过程构成了我们对物体老化的视觉认知,我们统称为其时间对象内在属性。

传统上,创建具有真实时间演变对象内在属性的图形资源需要大量针对特定对象的手动工作和专业知识。相反,我们追求一种基于学习的方法来生成这种具有物理基础的图形资源,而无需人工干预。所生成的时间对象内在属性可以看作是一个“3D延时体积视频”,从中我们可以采样实例,并从任何视角、在任何光照条件下、在其生命周期的任何时刻进行渲染。

由于缺乏标注数据,以监督方式生成时间对象内在属性具有挑战性。因此,我们探索了从2D扩散模型中提炼出的生成管线的潜力。诸如Score Distillation Sampling(SDS)等现有技术在3D生成方面已显示出有前景的结果,但它们无法直接应用于我们当前的任务,即从几何形状和纹理发生显著变化的物体中提炼时间对象内在属性。在3D提炼中,众所周知,由于2D扩散模型中缺乏3D信息,SDS类方法难以保持3D一致性,这通常被称为Janus问题。不幸的是,在优化4D表示时,由于空间和时间上的全局不一致性,情况更加恶化:不仅可能从多个摄像机视角出现特征视图,而且在整个持续时间内,一个常见的时态状态也可能反复出现。 推荐课程: 彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用

为了缓解这种4D不一致性,我们提出了用于时态状态条件提炼的神经模板。神经模板是一种映射,它接收视角和时间作为输入,并输出模拟自然过程的“时态状态”信息,它捕获了动态对象内在属性的生命周期;它可以通过从描绘动态过程的粗略初始4D重建中获得的自监督图像特征来自动构建。这使我们能够通过在表示时态状态的2D神经状态图上对扩散模型进行条件设置,从而将提炼梯度锚定到特定视角和时间戳上。这显著提高了提炼效率和4D一致性,因为每个视图都接收针对特定时态状态量身定制的提炼信号。

为了模拟物体的逼真纹理,我们进一步将其外观分解为基于物理的表面材料成分,并在提炼过程中使用可微分的PBR渲染器恢复这些表示。我们还提出了一种混合4D表示,以实现一致且高保真度的生成。

3. 效果展示

我们研究生成问题时态对象本质-对象几何形状、反射率和纹理的时间演化序列,例如来自预训练的2D基础模型的晕染。

用我们的方法生成的rose对象内部函数的寿命。如(a)所示,通过从没有任何3D数据的2D基金会模型中提取,我们提出了一种流水线来生成3D对象的几何形状和材料属性的时间演化序列,包括反照率、粗糙度和金属参数(这里仅示出反照率)。如(b)所示,生成的资产可以从任何视点和光照条件进行渲染(环境贴图显示在最后一行)。有关动画,请参见补充网站。

4. 主要贡献

我们提出了一个新任务,即生成时间对象内在属性,其形式为随时间演变的3D形状、反射率和纹理序列。我们引入了一个框架,用于从预训练的2D扩散模型中提炼4D一致的时间对象内在属性。该框架的核心是一个规范的神经模板,它将提炼信号锚定到特定的时态状态上。我们在几个不同的物体类别上测试了这个框架。我们将其在自动4D生成方面的性能与先前技术进行了定量比较,结果表明,所提出的方法在不同示例中具有优势。进一步的消融研究表明,该框架中提出的核心模块和技术对于性能至关重要。

5. 动机

我们提出从2D基础模型中提炼4D时间对象内在属性。最近的工作已利用诸如SDS等技术来生成4D内容。然而,这些方法在实际任务中表现不佳。一方面,它们通过视图相关辐射来建模外观,这可能不完全符合物理原理,且不支持重新照明。更重要的是,如我们的实验所示,这些方法通常会产生微小且不切实际的运动,不足以表示物体在其生命周期中经历剧烈变化时观察到的显著时态状态变化。

对于先前的工作,主要挑战来自于2D扩散模型的空间容量与时间对象内在属性所需的4D信息之间的差异。众所周知,常见的基于得分提炼的3D生成方法[39, 56]通常会导致“Janus问题”,即生成的资源在不同侧面重复出现特征视图。这主要是因为2D扩散模型对3D视角控制的知识有限。在4D生成的情况下,除了重复的视图外,由于缺乏足够的时态锚定,生成的实例可能会在不同时间戳上展现出重复的时态状态。

因此,从2D扩散模型中提炼需要明确的3D和时态控制信号,以实现高保真4D对象内在属性的生成。那么,什么是好的控制信号呢?在传统的计算机图形学文献中,骨骼通常用于表示运动状态。由于我们对关节物体以外的通用物体感兴趣,我们需要一种更通用的表示,它像骨骼一样在物体部件之间编码语义亲和力。

事实上,经过空间下采样和主成分分析(PCA)后,使用最近的2D基础模型提取的2D图像特征图可以有效地提供这种语义亲和力信息,这与传统动画中骨骼的投影相似。如图3所示,这些特征图有效地编码了时态状态以及自然过程的视角信息。因此,我们称这些图为“神经状态图”。我们实证发现,这些图可以作为ControlNet的条件信号,以控制生成图像的时态状态和视角。

这一发现自然地将2D扩散模型与4D信息联系起来。对于自然过程,我们可以构建一个规范表示,该表示在给定查询摄像机视角ξ和时间戳t的情况下,可以告诉我们时态状态信息。我们称之为“神经模板”,它定义了从摄像机姿态和时间戳到神经状态图的映射T(ξ, t)。

6. 方法

我们构建了一个系统,该系统可以接收自然过程的提示(例如“一朵玫瑰盛开”),并生成时间对象内在属性,如图2所示。生成过程分为两个阶段。在第一阶段,我们从视频扩散模型中采样一个参考视频,并重建一个粗糙的可变形网格来表示自然过程中的4D时态阶段。重建的粗糙可变形网格可用于构建如图4所示的神经模板,该模板将在第二阶段中使用。

在第二阶段,我们通过迭代优化具有来自2D扩散模型的梯度的混合4D对象内在属性表示来生成时间对象内在属性。在每次迭代中,我们随机采样一个摄像机视角和一个时间戳,并使用基于物理的渲染器渲染一张图像。然后,将渲染的图像添加噪声,并输入到以神经状态图为条件的扩散模型中,以获得用于更新混合4D场的生成分数。

7. 实验结果

我们研究了7种具有显著内在变化特性的动态自然现象:“花朵绽放”、“花朵凋零”、“植物发芽”、“蜡烛燃烧”、“冰淇淋融化”、“香蕉腐烂”和“面包烘烤”。图5展示了所提框架生成的4D物体内在属性(intrinsics)的部分结果。更多结果可参见补充材料。据我们所知,这项工作首次为自然过程生成了时序物体内在属性。因此,我们选择了与最相似任务相关的基线方法。

4D生成方法。我们针对上述7种不同的自然现象,与最新的通用物体4D内容生成方法进行了比较。请注意,先前为此任务设计的方法无法像我们的方法一样合成反照率或材质属性。因此,我们仅评估4D渲染效果以进行比较。

4D-fy根据文本提示合成4D内容,利用视频和图像扩散模型的指导以及多分辨率哈希编码进行表示。DreamGaussian4D[42]接收图像作为输入,并使用4D高斯溅射(Splatting)表示合成4D输出。STAG4D[72]接收视频输入,并对输入视频进行4D重建。我们使用与我们相同的参考视频来设置STAG4D的条件。基线方法输入准备的详细情况见补充材料。

结果如图6所示。与基线方法相比,我们的方法在渲染质量和运动一致性方面表现更佳。4D-fy无法根据提示的运动概念合成动态内容。DreamGaussian4D存在严重的时间和静态伪影。STAG4D对给定的输入视频进行4D重建,并能适应输入视图,但在新视图中存在明显伪影。

我们进行了一项用户研究,比较了我们的方法与基线方法在质量上的优劣,要求参与者根据三个标准(概念一致性、运动真实感和整体视觉质量)选择最满意的结果。95名参与者的平均偏好率结果如表1所示,显示出对提出方法的明显偏好。除了用户研究外,我们还在表1中报告了CLIP分数,以反映客观视觉质量和文本一致性。

具有材质建模的3D生成方法。另一项与我们任务部分相关的工作是具有分解几何和外观的3D生成方法。

特别是,我们与Fantasia3D进行了比较,该方法接收文本提示作为输入。如图7所示,基线方法在几何上存在严重的双面问题(Janus problem),在纹理上存在伪影,而我们的方法能够合成更高质量的材质。

8. 总结

我们提出了一项新颖且重要的任务,即仅从2D基础模型的指导下生成4D时序物体内在属性,提出了一种新的神经模板(Neural Template)表示,并探索了其在为不同现象生成时序物体内在属性中的应用。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓







请到「今天看啥」查看全文