专栏名称: jiangweijie1981

文献阅读·FUNIT

jiangweijie1981 · 简书 · · 2020-02-20 22:28

正文

请到「今天看啥」查看全文

简介

Few-shot unsupervised image-to-image translation.ICCV-2019,Cited-27.作者官方开源： https://github.com/NVlabs/FUNIT 。

关键字

少样本，图像转换，深度学习，无监督学习，机器学习

正文

1. 任务

本文的任务是学习一个无监督的图像转换，与以往图片转换任务不同的是：1）仅有少量的目标域图像；2）目标域图像在训练期间不可见；3）源类有多类且没有限制样本数量。

2. 思路

从任务来看相当于需要获得不同域间样本对的联合分布，这是个病态问题，因此为了求解通常会给任务增加一些假设，这些假设有像素值限制，像素梯度，语义特征，类标签，样本对间距离，以及循环一致性损失，隐变量空间重叠或部分重叠等。本文使用的假设式共享部分隐变量空间，即假设不同域间的相同样本具有相同的内容子空间。

有了上面的假设后，就可以根据假设对样本进行解耦，分离出样本的外观（内容）隐变量 $z$ 和类变量 $c$ ，然后把 $z$ 和其他的类隐变量 $c'$ 结合生成新样本即可。为了让模型在目标域仅有少量的不可见样本情况下使用，提出模型在多类的情况事先进行训练以获得将样本映射到潜在的外观隐变量子空间的能力，就是把样本编码成外观隐变量 $z$ ；同时为了获得类隐变量，再设计一个类编码器，这个编码器对同一个类的K个样本进行编码获取该类样本的类变量 $c$ ；有了这两个样本的构成要素就可以合成相对应的类和外观的样本，这个过程可以利用一个解码器来完成；最后为了判别生成的样本是否符合目标类，再来个判别器就完整了。

生成器具体结构（文献附录Fig6），判别器采用PatchGAN结构，没有结构图，但在附录中给出了具体设置：

生成器结构.png

判别器：

3. 目标函数和损失

总体目标函数：

$\min_D\max_G L_{GAN}(D,G)+\lambda_RL_R(G)+\lambda_FL_{FM}(G)$

第1项对抗损失，来自判别器对真实样本或生成样本与目标域的分布差异：

$L_{GAN}(D,G)=E_x[-\log D^{c_x}(x)]+E_{x,\{ y_1,...,y_k \} }[\log (1-D^{c_y}(\bar x))]$

第2项重构损失，来自输入样本与该样本的重构差异：

$L_r(G)=E_x[\mid\mid x-G(x,\{ x \})\mid \mid _1^1]$

第3项特征损失，位于判别器输出前一层，代表生成样本与K个类样本特征均值的差异：

$L_F(G)=E_{x,\{ y_1,...y_k\}}[\mid\mid D_f(\bar x) -\sum \frac {D_f(y_k)}{K}\mid\mid_1^1]$

4. 实验效果

文献做了大量的实验，这里仅放一张（文献Fig9）理解下任务内容和效果：

效果.png

参考资料

[1] Liu, Ming-Yu, et al. "Few-shot unsupervised image-to-image translation." Proceedings of the IEEE International Conference on Computer Vision. 2019.