专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
91产品  ·  直播变现运营方案 ·  昨天  
人人都是产品经理  ·  当你把下一个环节当作客户的时候,一切就顺畅了 ·  昨天  
人人都是产品经理  ·  AI时代,产品经理的4项修炼,有用! ·  2 天前  
人人都是产品经理  ·  在相亲平台给钱就有“完美爱人”? ·  2 天前  
51好读  ›  专栏  ›  小白学视觉

鸡哥又上CV论文!单图生成3D模型,高质量且高效率新模型!

小白学视觉  · 公众号  ·  · 2024-06-27 10:05

正文

点击上方 小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

大家好,今天和大家分享几篇最新的工作

1、 VividDreamer

VividDreamer 是一个兼顾高质量和效率的文本生成3D资产的算法。更加具体来说就是,通过输入一句话,例如下图左上角的图片:输入 “A zoomed out DSLR photo of a corgi wearing a top hat” (戴着高顶礼帽的柯基犬的缩小照片),生成 柯基的3D模型。

实现思路:

VividDreamer 的整体框架:

1、使用预训练的 Point-E(3D点云)和文本prompt初始化,并使用 3D Gaussian Splatting (3DGS) 作为 3D 表征

2、 在训练中,给定一个相机姿势 c,通过 3DGS 的渲染管道渲染相应的视图,并使用 DDPM/DDIM 反演将其扰乱为 2D 扩散模型 (扩散过程)

3、 采用提出的姿势相关一致性蒸馏采样 (PCDS),通过几步(1-3)采样,将噪声映射到伪GT(例如 去噪后的图片)

4、 计算渲染视图和伪GT 之间的均方误差 (MSE) 损失 LP CDS,并通过等式中的梯度更新 3D 高斯参数

对比不同的梯度目标:

(a)True Gradient 是一项耗时的工作,需要在每次迭代中进行完整的去噪采样。

(b)为了加速 ,分数蒸馏采样 (SDS) 使用 1 步 DDPM 采样将噪声直接映射到数据,即伪 GT,但由于 DDPM 带来的内在随机性,SDS 难以获得准确的梯度。

(c) PCDS 在扩散轨迹内从任何时间步 t 到原点 0 构建姿势相关一致性函数 fϕ,从而允许生成准确的伪 GT 并通过最少的采样步数 (1∼3) 获取精确的梯度。

论文和项目地址:

https://narcissusex.github.io/VividDreamer/

https://arxiv.org/abs/2406.14964

https://github.com/NarcissusEx/VividDreamer

2、 MaX4Zero

MaX4Zero 在开放场景执行虚拟试穿(针对看不见的目标图像和服装),无需任何微调。

给定目标图像(上)和服装图像(下),使用基于扩散的先验生成图像,将输入服装替换为目标中已穿着的服装(右)。

实现思路:

顶部: 初始配准阶段,使用从两幅图像中提取的深度特征将参考服装扭曲以匹配目标人物 。 目标服装和扭曲服装之间的剩余间隙由边缘分配模块填充。 底部: 一致修复阶段,利用mask扩展注意力机制通过基于笔触的修复来传输参考精细细节。

更多测试效果:

论文和项目地址:

https://arxiv.org/pdf/2406.15331

https://nadavorzech.github.io/max4zero.github.io/

3、 Stylebr eeder

Stylebreeder 是一个全面的数据集,包含 680 万张图像和 180 万条prompt。可以 利用该数据集引入了一系列任务,旨在识别不同的艺术风格、生成个性化内容并根据用户兴趣推荐风格。

探索不同的艺术风格

使用最先进的特征提取器 CSD 将图像转换为一组 style embeddings 。然后使用 K-Means++ 算法将这些嵌入聚类成组,该算法利用余弦相似性来确保聚类内的内聚性。

基于风格的个性化图像生成

使用这些已发现风格的图像集群来微调 LoRA 模型,使其能够生成具有相似风格的新图像。

使用图像簇作为风格,可以为每个用户建模他们喜欢的风格。使用基于矩阵分解的方法,我们开发了一个推荐系统来提出用户以前未生成图像的新样式。

论文和项目地址:

https://stylebreeder.github.io/







请到「今天看啥」查看全文