专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
目录
相关文章推荐
孙立平社会观察  ·  孙立平:经济循环:三种模式的比较 ·  10 小时前  
人民日报评论  ·  “冷中求热”带来的启示 | 评论员观察 ·  3 天前  
纪法指引  ·  【重要】 ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉之心

ICLR 2025 | 原生3D+流匹配,现有SOTA被GaussianAnything超越

3D视觉之心  · 公众号  ·  · 2025-03-15 10:23

正文

作者 | 机器之心

点击下方 卡片 ,关注“ 3D视觉之心 ”公众号

第一时间获取 3D视觉干货

>> 点击进入→ 3D视觉之心技术交流群

兰宇时,MMLab@NTU博士生,导师为 Chen Change Loy。本科毕业于北京邮电大学,目前主要研究兴趣为基于神经渲染的 3D 生成模型、3D 重建与编辑。

尽管 3D 内容生成技术取得了显著进展,现有方法仍在输入格式、潜空间设计和输出表示上面临挑战。

在 ICLR 2025 中,来自南洋理工大学 S-Lab、上海 AI Lab 、北京大学以及香港大学的研究者提出的 基于 Flow Matching 技术的全新 3D 生成框架 GaussianAnything ,针对现有问题引入了一种交互式的点云结构化潜空间,实现了可扩展的、高质量的 3D 生成,并支持几何-纹理解耦生成与可控编辑能力。

该方法在 Objaverse 数据集上进行了大规模训练,并在文本、图像、点云引导的 3D 生成任务中超越了现有的原生 3D 生成方法。

目前,项目所有模型和测试/训练代码均已全面开源至 Github/ Huggingface , 并支持多卡、自动混合精度 (AMP) 训练、flash-attention 以及 BF16 等加速技巧。

图片
  • 论文项目主页: https://nirvanalan.github.io/projects/GA/

  • 论文代码: https://github.com/NIRVANALAN/GaussianAnything

  • Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D

  • 个人主页: https://nirvanalan.github.io/

  • 论文标题:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation


图片
研究背景

近年来,以可微渲染和生成模型为核心的神经渲染技术 (Neural Rendering) 取得了快速的进展,在新视角合成、3D 物体生成和编辑上取得了令人满意的效果。在统一图片/视频生成的 LDM 框架的基础上,近期关于原生 (native) 3D diffusion model 的研究也展现了更优的泛化性,更快的生成速度与更好的可编辑性。

然而,一些关于原生 3D diffusion 模型的设计挑战仍然存在: (1) 3D VAE 输入格式,(2) 3D 隐空间结构设计,(3) 3D 输出表征选择。

为了解决上述问题,研究者提出基于 Flow Matching 的可控点云结构化隐空间 3D 生成模型 GaussianAnything,支持多模态可控的高效、高质量的 3D 资产生成。

方法

方法概览图 (3D VAE 部分):

图片

研究者提出的 3D-aware flow matching 模型主要包含以下三个部分:

  1. 利用编码器 (3D VAE Encoder) 将 3D 物体的 RGB-D (epth)-N (ormal) 多视图渲染图压缩到点云结构的 3D 隐空间。

  2. 在 3D 隐空间中训练几何 + 纹理的级联流匹配模型 (Flow Matching model), 支持图片、文字、和稀疏点云引导的 3D 物体生成。

  3. 使用 3D VAE Decoder 上采样生成的点云隐变量,并解码为稠密的表面 高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE
结构化的高效、高质量 3D 压缩

高效的 3D 物体编码

首先,和图片/视频 LDM 模型类似,3D 隐空间生成模型也同样需要与之适配的 3D VAE 模型,且该模型的效果决定了 3D 生成模型的上限。因此,研究者采取了以下设计来提升原生 3D VAE 的性能:

在 3D 编码器端,相较于目前普遍使用的基于稠密点云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者选择使用多视图 RGB-D (epth)-N (ormal) 渲染图来作为输入 3D 物体的等效表达,并联合 Plucker 相机编码一起共 15 维信息 图片 作为多视图编码器的输入。

为了更好地编码多视图输入,相较于直接使用图像/视频领域常见的 U-Net 模型,研究者使用基于 3D-attention 的 Transformer [3] 结构来处理多视图输入 图片 相较于使用稠密点云作为输入的方法,本文的 3D VAE Encoder 更高效自然地拥有来自多种输入格式的丰富的 3D 信息,并能够同时压缩颜色与几何信息。

基于 3D 点云结构化隐空间表达

虽然上述过程已经将 3D 物体压缩为 multi-view latent 图片 , 本文中研究者认为该隐空间并不适合直接用于 3D diffusion 的训练。首先, 图片 的维度 图片 较高,在高分辨率下训练开销巨大。其次,multi-view latent 图片 并非原生的 3D 表达,无法直观灵活地用于 3D 编辑任务.

为了解决上述缺陷,研究者提出在点云结构的 3D 隐空间表达进行 3D diffusion 的学习。具体地,他们使用 Cross Attention 操作 图片 将特征 图片 投影到从输入物体表面采样得到的稀疏的 3D 点云 上。最终的点云结构化隐变量 图片 被用于 diffusion 生成模型的训练。

高质量 3D 高斯上采样/解码

在得到点云结构化隐变量后,研究者首先使用 3D Transformer 结构对其进一步解码






请到「今天看啥」查看全文