正文
简介
Multimodal unsupervised image-to-image translation.ECCV-2018,Cited-376.官方开源:
https://github.com/NVlabs/MUNIT
关键字
GAN,多模态,特征解耦,深度学习,机器学习
正文
1. 任务
针对当前图像域转换任务存在模式崩溃(生成图像单一)的问题,利用AE和GAN的方式将图像内容和风格解耦后再进行转换的思路,可以完成无监督图像域转换后生成多模态图像。
2. 思路
思路见图(文献Fig1),无监督域转换问题是个病态问题,在求解这类问题时首先得有个假设,这里的假设是不同的域之间共享图像内容(图像的结构信息),但具有不同的风格(针对图像结构的渲染),因此对应上面的假设可以利用AE结构分别学习出这两部分的隐变量,在重组编码后就可以生成对应域的图像了。仅是这样只完成了域转换工作,还不是本文的重点:多模态,按照假设多模态对应同一个域同一个内容的情况下有不同的样本,所以就假设风格的隐变量编码空间是个连续变量,转换图像时就可以使用内容编码+风格编码区域抽样来生成多模态的图像。
3. 结构
结构见图(文献Fig2),可以看作是CycleGAN的结构,内部是AE-GAN和InfoGAN的结合体。CycleGAN结构用来进行监督(样本自身)学习,AE-GAN结构学习特征以及提高生成图像质量,InfoGAN在这里面体现在解耦的思想上,即内容和样本在编码完还可以再解码回内容和样本。
4. 目标函数
从结构上可以知道具有GAN的对抗损失,内容、风格、图像样本自身的重构损失,目标函数如下:
对抗损失如下:
各重构损失如下:
5. 实验效果
原文实验很多,挑个(文献Fig9)域转换任务的:
再挑个(文献Fig10)应用在风格迁移上的:
参考资料
[1] Huang, Xun, et al. "Multimodal unsupervised image-to-image translation." Proceedings of the European Conference on Computer Vision (ECCV). 2018.