专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【震撼】这些专业级摄影作品竟然出自谷歌神经网络之手！

新智元 · 公众号 · AI · 2017-07-14 13:13

正文

1 新智元编译

来源：research.googleblog.com

编译：刘小芹

【新智元导读】 谷歌研究人员提出利用机器学习学习“主观”概念的新方法，模仿专业摄影师的工作流程，遍览谷歌街景地图并搜索最佳作品，然后进行各种后续的处理，创造出媲美专业摄影师的作品。

机器学习（ML）在许多有明确目标的领域表现优异。存在正确答案或错误答案的任务有助于训练过程，并有助于算法实现预期的目标，例如正确地识别图像中的对象，为一种语言到另一种语言提供恰当的翻译。但是，有一些领域是很难有客观评价的。例如，一张摄影作品是否美丽是通过它的审美价值来衡量的，这是一个非常主观的概念。

加拿大贾斯珀国家公园的（专业？）摄影

为了探索ML如何学习主观概念，我们为艺术创作提出一个实验性的深度学习系统 Creatism 。它模仿专业摄影师的工作流程，遍览谷歌街景地图并搜索最佳作品，然后进行各种后续的处理，创造出具有美感的图像。我们的虚拟摄影师在阿尔卑斯山、班夫国家公园、贾斯珀国家公园、加利福尼亚州的大苏尔，以及黄石国家公园等地“旅行”，获取了约40000张全景照片，处理成非常令人印象深刻，甚至接近专业水平的作品——这是由专业摄影师评价的。

训练模型

虽然“美感”可以使用AVA之类的数据集进行建模，但单纯使用它来增强照片可能在美学的某些方面处理不好，例如使照片过度饱和。使用监督学习方法可以适当地学习美学的多个方面，但可能需要一个有标注数据集，这是很难收集的。

我们的方法仅需要一个专业水平照片的数据集，不需要在前/后进行图像配对，也不需要任何其他标签。该系统可以自动将“美感”分解为多个方面，每个方面都通过耦合的图像操作产生的负面例子单独学习。通过使这些图像操作保持“半正交”（semi-orthogonal），我们可以通过快速且可分离的优化来增强照片成分、饱和度/HDR水平，以及亮度。

图：一张全景照片（a）被裁剪成（b），饱和度和HDR增强的（c），以及应用了戏剧性的蒙版（dramatic mask）的（d）。每一步都由已学习的一个美学方面指导。

传统的图像滤波器用于产生饱和度，HDR细节和构图的负面训练样本。我们还提出一个名为“戏剧性蒙版”（dramatic mask）的特别操作，这是在学习“戏剧性光线”（dramatic lighting）的概念的同时创造的。负面训练样本是通过应用一系列图像滤波器的组合，在专业级摄影作品上随机修改亮度，降低图像的质量产生的。在训练中，我们使用生成对抗网络（GAN），其中生成模型创造一个mask来为负面样本修改光线，而鉴别器模型试图区分被增强的结果和真正的专业级照片。与固定形状的滤波器（例如晕影）不同，dramatic mask 为照片进行内容感知（content-aware）的亮度调整。GAN训练的竞争性质导致这些方案能导致好的变化。有关训练的更多细节请阅读我们的论文：