道格·埃克(Doug Eck)
上周,我去山景城的Google Brain团队办公室(Magenta项目团队也在这里)拜访了埃克。埃克聪明随和,为人谦逊。2000年,他从印第安纳大学获得计算机科学博士学位,后投身音乐和机器学习,曾供职于蒙特利尔大学(人工智能的孵化地之一),后进入谷歌,致力于开发Google Music,现在领导Google Brain的Magenta项目。
埃克是怎么想到要构建艺术创作型AI的?其实,这个主意源于一场漫不经心的谈话,“但经过几轮思索,”他说,“大家就开始觉得,‘当然要做了,这很重要。’”
他与同在谷歌的协作者大卫·哈(David Ha,音)写道:SketchRNN的意义不是简单的学画画,而是“以类似于人类的方式,概括抽象概念。”他们想要创造的,不是一台能画猪的机器,而是一台能够识别并输出“象猪一样的特征”的机器,哪怕馈入的关键词并不是猪,就比如上面的卡车。
其中隐含的逻辑是:画画是对世界的抽象。你所画的是泛泛的“猪”,是一个概念,而不是某一头猪。也就是说,大脑存储“”的方式和我们画猪的方式不无关联。在学习画猪的过程中,我们也许能了解人类是如何概括出“像猪一样的特征”的。
这款软件是这样运作的:谷歌构建了一款游戏,名为“Quick, Draw!”让玩家画各种事物:猪、雨、消防车、瑜伽体式、花园和猫头鹰,从而生成一个大型数据库。
通过画画,我们将丰富多彩、纷繁嘈杂的世界压缩成了寥寥数笔。这些简单的笔画构成了SketchRNN的基本数据集。借助谷歌的TensorFlow开源软件库,每个类别的绘画——猫咪、瑜伽、雨——都能拿来训练一种特定类型的神经网络。
与之泾渭分明的,是基于照片的AI作品,近期,这类作品屡见于媒体,比如机器创作的梵高风格的照片,或是具有独创性的DeepDream,抑或是给任意形状填充细节,让人一眼就认出那是猫咪等。
用人类的主观感觉来判断,那些作品让人觉得不可思议。其有趣之处就在于,它们类似于人类对现实世界的认知,但从本质上讲,两者并不能划上等号。
相比之下,SketchRNN输出的作品没有什么不可思议之处。但“感觉就是对劲,”埃克告诉我说。“不敢说‘跟人画的一样’,它们给人的感觉就是对劲,不同于那些逐个像素生成的图像。”
这就是Magenta团队的核心见解。“人类眼中的世界并非一格一格的像素。实际上,人们形成抽象概念,并用这些概念代表实际所见。”在描述该研究的论文中,埃克和大卫·哈称如是写道。“很小的时候,我们就会用铅笔或蜡笔在纸上画画,用来表达我们看到的事物。”
凡是人类能做到的,谷歌都想用机器来实现。去年,谷歌CEO桑德尔·皮蔡(Sundar Pichai)宣布了“人工智能为先”的理念。
谷歌所采用的各项工具,可以用“机器学习”一词来概括。机器学习即给计算机编程,馈入带标签的数据,作为训练素材,使机器自学各项任务。一种广为流行的机器学习方法是通过粗略模仿人类大脑神经系统的神经网络来学习。各种节点(人造神经元)相互连接,权重各不相同,对各种输入作出有选择的响应。
近些年,多层级神经网络大展身手,解决了一些棘手难题,尤其是翻译和图像识别/处理领域。谷歌用这些全新的架构,重建了旗下很多核心服务。这些网络模仿已知的人脑运作方式,拥有相互联络的层级,可以识别输入(比如图像)中的不同形态。在低层级网络内,神经元也许只是对像素级别的明暗模式作出响应。高层级网络也许能对狗脸、汽车或蝴蝶等事物做出响应。
采用这类架构与机制构建网络效果惊人。曾经极其艰深的计算难题,现在只要调整训练模型,让图形处理单元跑上一会儿,就能迎刃而解了。
谷歌翻译(Google Translate)是用10年时间建立起来的复杂系统,然而谷歌使用深度学习系统,在短短九个月里就彻底改造了它。“AI系统一夜之间的改进幅度,相当于老系统诞生以来所有改进的总和,”刘易斯·克劳斯写道。
正是因此,神经网络的用途与类型出现爆发式增长。比如SketchRNN就用到了递归神经网络——这种网络专门对付输入序列,而训练素材就是人们描画不同事物时的笔画序列。
简单地说,这种训练就相当于编码:向网络馈入数据(即草绘),网络就会处理内容,并归纳出通用规则。由此形成所有数据的一个模型,描述了网络中各个神经元的倾向,并以数学形式加以存储。
这种配置被形象地称为潜伏空间,又称Z(Zed),其中所存储的,就是猪、卡车或是瑜伽等事物的特征。正如AI研究者们所说,让SketchRNN系统画出它所训练的内容,它就会吐出一头猪、一辆卡车或一种瑜伽体式。所画即所学。
那么,SketchRNN能学到些什么呢?研究人员用人们画的消防车训练网络,使之生成新的消防车,所得结果如下。该模型中有个名为“温度”的变量,可用来调高或调低随机性。在下方的图像中,偏蓝的随机性较低,偏红的随机性较高。