来源:research.googleblog.com
编译:刘小芹
【新智元导读】
谷歌研究人员提出利用机器学习学习“主观”概念的新方法,模仿专业摄影师的工作流程,遍览谷歌街景地图并搜索最佳作品,然后进行各种后续的处理,创造出媲美专业摄影师的作品。
机器学习(ML)在许多有明确目标的领域表现优异。存在正确答案或错误答案的任务有助于训练过程,并有助于算法实现预期的目标,例如正确地识别图像中的对象,为一种语言到另一种语言提供恰当的翻译。但是,有一些领域是很难有客观评价的。例如,一张摄影作品是否美丽是通过它的审美价值来衡量的,这是一个非常主观的概念。
加拿大贾斯珀国家公园的(专业?)摄影
为了探索ML如何学习主观概念,我们为艺术创作提出一个实验性的深度学习系统 Creatism
。它模仿专业摄影师的工作流程,遍览谷歌街景地图并搜索最佳作品,然后进行各种后续的处理,创造出具有美感的图像。我们的虚拟摄影师在阿尔卑斯山、班夫国家公园、贾斯珀国家公园、加利福尼亚州的大苏尔,以及黄石国家公园等地“旅行”,获取了约40000张全景照片,处理成非常令人印象深刻,甚至接近专业水平的作品——这是由专业摄影师评价的。
虽然“美感”可以使用AVA之类的数据集进行建模,但单纯使用它来增强照片可能在美学的某些方面处理不好,例如使照片过度饱和。使用监督学习方法可以适当地学习美学的多个方面,但可能需要一个有标注数据集,这是很难收集的。
我们的方法仅需要一个专业水平照片的数据集,不需要在前/后进行图像配对,也不需要任何其他标签。该系统可以自动将“美感”分解为多个方面,每个方面都通过耦合的图像操作产生的负面例子单独学习。通过使这些图像操作保持“半正交”(semi-orthogonal),我们可以通过快速且可分离的优化来增强照片成分、饱和度/HDR水平,以及亮度。
图:一张全景照片(a)被裁剪成(b),饱和度和HDR增强的(c),以及应用了戏剧性的蒙版(dramatic mask)的(d)。每一步都由已学习的一个美学方面指导。
传统的图像滤波器用于产生饱和度,HDR细节和构图的负面训练样本。我们还提出一个名为“戏剧性蒙版”(dramatic mask)的特别操作,这是在学习“戏剧性光线”(dramatic lighting)的概念的同时创造的。负面训练样本是通过应用一系列图像滤波器的组合,在专业级摄影作品上随机修改亮度,降低图像的质量产生的。在训练中,我们使用生成对抗网络(GAN),其中生成模型创造一个mask来为负面样本修改光线,而鉴别器模型试图区分被增强的结果和真正的专业级照片。与固定形状的滤波器(例如晕影)不同,dramatic mask 为照片进行内容感知(content-aware)的亮度调整。GAN训练的竞争性质导致这些方案能导致好的变化。有关训练的更多细节请阅读我们的论文: