点击上方
“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达![](http://mmbiz.qpic.cn/mmbiz_jpg/ow6przZuPIENb0m5iawutIf90N2Ub3dcPuP2KXHJvaR1Fv2FnicTuOy3KcHuIEJbd9lUyOibeXqW8tEhoJGL98qOw/640?wx_fmt=other&wxfrom=5&wx_lazy=1&wx_co=1&tp=webp)
大家好,今天和大家分享几篇最新的工作
1、
VividDreamer
VividDreamer 是一个兼顾高质量和效率的文本生成3D资产的算法。更加具体来说就是,通过输入一句话,例如下图左上角的图片:输入 “A zoomed out DSLR photo of a corgi wearing a top hat” (戴着高顶礼帽的柯基犬的缩小照片),生成
柯基的3D模型。
实现思路:
VividDreamer 的整体框架:
1、使用预训练的 Point-E(3D点云)和文本prompt初始化,并使用 3D Gaussian Splatting (3DGS) 作为 3D 表征
2、
在训练中,给定一个相机姿势 c,通过 3DGS 的渲染管道渲染相应的视图,并使用 DDPM/DDIM 反演将其扰乱为 2D 扩散模型 (扩散过程)
3、
采用提出的姿势相关一致性蒸馏采样 (PCDS),通过几步(1-3)采样,将噪声映射到伪GT(例如 去噪后的图片)
4、
计算渲染视图和伪GT
之间的均方误差 (MSE) 损失 LP CDS,并通过等式中的梯度更新 3D 高斯参数
对比不同的梯度目标:
(a)True Gradient
是一项耗时的工作,需要在每次迭代中进行完整的去噪采样。
(b)为了加速
,分数蒸馏采样 (SDS) 使用 1 步 DDPM 采样将噪声直接映射到数据,即伪 GT,但由于 DDPM 带来的内在随机性,SDS 难以获得准确的梯度。
(c)
PCDS 在扩散轨迹内从任何时间步 t 到原点 0 构建姿势相关一致性函数 fϕ,从而允许生成准确的伪 GT 并通过最少的采样步数 (1∼3) 获取精确的梯度。
论文和项目地址:
https://narcissusex.github.io/VividDreamer/
https://arxiv.org/abs/2406.14964
https://github.com/NarcissusEx/VividDreamer
2、
MaX4Zero
MaX4Zero
在开放场景执行虚拟试穿(针对看不见的目标图像和服装),无需任何微调。
给定目标图像(上)和服装图像(下),使用基于扩散的先验生成图像,将输入服装替换为目标中已穿着的服装(右)。
实现思路:
顶部:
初始配准阶段,使用从两幅图像中提取的深度特征将参考服装扭曲以匹配目标人物 。
目标服装和扭曲服装之间的剩余间隙由边缘分配模块填充。
底部:
一致修复阶段,利用mask扩展注意力机制通过基于笔触的修复来传输参考精细细节。
更多测试效果:
论文和项目地址:
https://arxiv.org/pdf/2406.15331
https://nadavorzech.github.io/max4zero.github.io/
3、
Stylebr
eeder
Stylebreeder
是一个全面的数据集,包含 680 万张图像和 180 万条prompt。可以
利用该数据集引入了一系列任务,旨在识别不同的艺术风格、生成个性化内容并根据用户兴趣推荐风格。
探索不同的艺术风格
使用最先进的特征提取器 CSD 将图像转换为一组
style embeddings
。然后使用 K-Means++ 算法将这些嵌入聚类成组,该算法利用余弦相似性来确保聚类内的内聚性。
基于风格的个性化图像生成
使用这些已发现风格的图像集群来微调 LoRA 模型,使其能够生成具有相似风格的新图像。
使用图像簇作为风格,可以为每个用户建模他们喜欢的风格。使用基于矩阵分解的方法,我们开发了一个推荐系统来提出用户以前未生成图像的新样式。
论文和项目地址:
https://stylebreeder.github.io/