专栏 | 大漠孤烟，长河落日：面向景深结构的风景照生成技术

机器之心 · 公众号 · AI · 2017-06-06 06:08

正文

请到「今天看啥」查看全文

机器之心专栏

上海交通大学电子工程系

作者：杨蕊

简介

2014 年以来，生成对抗网络（Generative Adversarial Networks）已经在各式各样的图像生成任务中大放异彩，无论是图像描述，图像编辑，图像超分辨率，GAN 网络都展现了巨大潜力。然而尽管已经存在很多对于数字，人脸，动物的生成的研究，对于风景照生成的研究却少之又少。

风景照生成的最大挑战在于如何合理地组合不同视觉元素，如何排布不同景深的内容，例如天空经常出现在风景照的背景中，沙滩与海常常一同出现。然而，如何对处于不同位置处视觉元素的相互关系建模并指导生成过程，是一个长期以来困扰计算机视觉领域的难题。传统的基于条件随机场的方法，无法表征景深方向特性。而基于 GAN 的方法，又不能显式地对景深层次特性进行定量地建模。使用原始 GAN 生成的风景画，如下图所示：可以看到，原始 GAN 方法生成的图像非常模糊，不同景深位置上的物体边界并不清晰，景深信息丢失严重。

针对这个问题，最近上海交通大学电子工程系杨小康教授, 倪冰冰教授团队的张文冬、晏轶超、徐经纬三位博士提出了一种新颖的可以保存景深信息的风景照生成网络： DSP-GAN。这个网络基于 Hawkes 点过程，将位于不同景深的层与层之间的空间依赖关系进行建模，并用子 GAN 网络生成每一层的风景元素。点过程能够将时序上出现的不同事件之间相关性进行建模，基于这个性质，本文使用它来模拟深度方向上的构图元素相关性。

方法

该方法构造出基于点过程的异步图层生成模型如上图。在网络的顶层输入图片首先根据景深被分解成不同的层，每一层中的元素可以理解为在景深方向上发生的事件。然后用异步网络衡量层与层之间的关系。在网络的底层，该算法采用层上的层级 GAN 网络来生成保留了层关系的自然风景图像。

在上图中，设定天空为初始深度 t0 上的标签，即以天空作为背景，然后随机选取另外两个深度位置 t1 和 t2 并计算不同类别元素出现的概率，最终概率最大的元素将被选中作为输出。得到的景深位置和相应的类别信息会指导整幅图像的生成。

在模型训练阶段，首先将训练集中的风景图分割成位于不同景深位置上的图层，每个图层对应一个标签和相对景深，将图层看作处于景深方向上的异步事件，这样图层间的关系就能使用 Hawkes 过程进行建模。更详细地讲，Hawkes 过程中被优化的是强度函数，这一函数刻画了不同类事件对其他类事件的影响程度。在描述层间模块时，所采取的 log-likehood function 可以表示为：

其中 A 表示激励矩阵，μ表示基础强度，λ表示条件强度函数。要极大化这个方程得到 A 和 u，这样就刻画了 Hawkes 过程。

训练好 Hawkes 过程之后，系统给出起始层的标签（例如：全部选为天空），然后随机选择两个景深位置根据强度函数计算不同类别事件发生的概率，从而得到标签信息，这样就得到了若干个不同景深位置和标签的信息，以此作为风景图生成的条件。其次，将标签和景深信息按次序依次输入到长短记忆网络 LSTM 中，每个时间戳（timestamp）的输出作为子 GAN 网络的输入，实现对每一图层的生成，最后将三个子 GAN 生成的图层进行叠加得到最终的风景图。加入 LSTM 的目的在于，在生成后一个图层时，生成器可以接收前一图层的相关信息，从而能够充分利用图层间的上下文关系，优化得到最终的生成结果。

实验结果

在该工作中，人工将 800 张左右了 SUN2012 数据集的部分图片进行分层标注，共有 13 种不同的标签。最终算法的生成结果示例如下：

括号中的数字表示景深，前三行表示不同的深度上的元素，最后一行表示完整图片。

可以发现，DSP-GAN 网络生成的风景照在层次上非常自然，有效的展示了大自然远近不同，多变而又辽阔的美。当然，在一些例子上，所生成的风景画也并不完美，图像的大小也比较有限。大漠孤烟，长河落日，探究风景照生成技术的道路也将任重道远。

该工作已在最近发表于 Arxiv.org 上。

论文链接: https://arxiv.org/abs/1706.00212

三位博士的邮箱为：张文冬 [email protected]；徐经纬 [email protected]；晏轶超 [email protected]；上海交通大学图像通信所人工智能实验室，由长江学者杨小康教授领衔，青年千人倪冰冰教授指导。

更多有关GMIS 2017大会的内容，请点击「阅读原文」查看机器之心官网 GMIS 专题↓↓↓