专栏名称: jiangweijie1981
目录
相关文章推荐
康石石  ·  工业交互如何入局AI? ·  2 天前  
HR新逻辑  ·  华为组织与个人绩效实践:工具与方法! ·  3 天前  
人力资源管理  ·  晋升调薪怎么调 ·  4 天前  
51好读  ›  专栏  ›  jiangweijie1981

文献阅读·MUNIT

jiangweijie1981  · 简书  ·  · 2020-02-20 00:42

正文

简介

Multimodal unsupervised image-to-image translation.ECCV-2018,Cited-376.官方开源: https://github.com/NVlabs/MUNIT

关键字

GAN,多模态,特征解耦,深度学习,机器学习

正文

1. 任务

针对当前图像域转换任务存在模式崩溃(生成图像单一)的问题,利用AE和GAN的方式将图像内容和风格解耦后再进行转换的思路,可以完成无监督图像域转换后生成多模态图像。

2. 思路

思路见图(文献Fig1),无监督域转换问题是个病态问题,在求解这类问题时首先得有个假设,这里的假设是不同的域之间共享图像内容(图像的结构信息),但具有不同的风格(针对图像结构的渲染),因此对应上面的假设可以利用AE结构分别学习出这两部分的隐变量,在重组编码后就可以生成对应域的图像了。仅是这样只完成了域转换工作,还不是本文的重点:多模态,按照假设多模态对应同一个域同一个内容的情况下有不同的样本,所以就假设风格的隐变量编码空间是个连续变量,转换图像时就可以使用内容编码+风格编码区域抽样来生成多模态的图像。

思路.png
3. 结构

结构见图(文献Fig2),可以看作是CycleGAN的结构,内部是AE-GAN和InfoGAN的结合体。CycleGAN结构用来进行监督(样本自身)学习,AE-GAN结构学习特征以及提高生成图像质量,InfoGAN在这里面体现在解耦的思想上,即内容和样本在编码完还可以再解码回内容和样本。

结构.png
4. 目标函数

从结构上可以知道具有GAN的对抗损失,内容、风格、图像样本自身的重构损失,目标函数如下:

\begin{align} \min_{E_1,E_2,G_1,G_2}\max_{D_1,D_2}L(E_1,E_2,G_1,G_2,D_1,D_2)=L_{GAN}^{x_1}+L_{GAN}^{x_2} \\[2ex] +\lambda_x(L_{rec} ^{x_1}+L_{rec} ^{x_2}) +\lambda_c(L_{rec} ^{c_1}+L_{rec} ^{c_2})+\lambda_s(L_{rec} ^{s_1}+ L_ {rec} ^{s_2}) \end{align}

对抗损失如下:

L_{GAN}^{x_2}=E_{c_1\sim p(c_1),s_2\sim q(s_2)}[\log(1-D_2(G_2(c_1,s_2)))]+E_{x_2\sim p(x_2)}[\log D_2(x_2)]

各重构损失如下:

\begin{align} L_{rec}^{x_1}=E_{x_1\sim p(x_1)}[\mid \mid G_1(E_1^c(x_1),E_1^s(x_1))-x_1 \mid \mid_1 ] \\[2ex] L_{rec}^{c_1}=E_{c_1\sim p(c_1),s_2\sim q(s_2)}[\mid \mid E_2^c(G_2(c_1,s_2)-c_1 \mid \mid_1 ] \\[2ex] L_{rec}^{s_2}=E_{c_1\sim p(c_1),s_2\sim q(s_2)}[\mid \mid E_2^s(G_2(c_1,s_2)-s_2 \mid \mid_1 ]\\ \end{align}

5. 实验效果

原文实验很多,挑个(文献Fig9)域转换任务的:

域转换.png

再挑个(文献Fig10)应用在风格迁移上的:

风格迁移.png

参考资料

[1] Huang, Xun, et al. "Multimodal unsupervised image-to-image translation." Proceedings of the European Conference on Computer Vision (ECCV). 2018.