在这场访谈中,Jeff Dean讲了一些有趣的往事。
1999 年 8 月,Jeff Dean 加入了谷歌,成为早期第 20 号员工。他在 2011 年参与创立了 Google Brain 团队,专注于智能机器领域的进展。自那时起,他的工作重心转到了 AI 和 ML 领域的研究、系统和应用,并引领了更广泛 AI/ML 和计算机科学研究社区的发展方向。
2020 年 12 月,Jeff Dean 获得了 2021 年度 IEEE 冯诺依曼奖,以表彰他对大规模分布式计算机系统和人工智能系统科学与工程的贡献。2023 年 4 月,谷歌宣布将旗下 Google Brain 和 DeepMind 合并,成立了 Google DeepMind。Jeff Dean 成为该部门的首席科学家。
作为谷歌的 AI「掌门人」,在谷歌工作了 25 年的 Jeff Dean 见证着 AI 发展的过去、现在与未来。在最近的一次访谈中,他和伦敦大学学院的副教授 Hannah Fry 畅谈了谷歌 AI 布局的昨天、今天与明天。
在访谈中,Jeff Dean 开启了回忆杀。
90 年代,神经网络的性能有限。Jeff Dean 在本科时曾探索过大规模神经网络,以失败告终,后来在谷歌,是和吴恩达的一次谈话激发了他继续扩展神经网络的想法。
彼时,大洋彼岸的 DeepMind 正在主攻强化学习,来谷歌访问的史上最强 60 岁「实习生」Hinton(没错,就是深度学习之父)提议去考察,这才有了 Google 和 DeepMind 的强强联合。如今,Scaling 和强化学习都让 AI 的智能程度上了一个台阶。
Jeff Dean 还分享了一个有趣的事情,Gemini 这个名字是他提出的。Jeff Dean 表示 Gemini 代表双胞胎,就像 DeepMind 和 Google Brain 的合并,代表着这两个部门共同致力于一个雄心勃勃的多模态项目。
大家都在谈论的 Transformer,Jeff Dean 也进行了简单明了的介绍。
以下是访谈主要内容的摘录:
重拾神经网络,起因竟然是和吴恩达聊天?
主持人:你还记得你第一次接触神经网络是什么时候吗?
Jeff Dean:神经网络有着有趣的历史。人工智能(AI)本身是一门相当古老的学科,早期的 AI 研究主要是试图定义一系列规则,告诉我们世界是如何运作的。这一阶段大概发生在 20 世纪 50 年代、60 年代和 70 年代。后来,神经网络在 70 年代开始出现,并在 80 年代末和 90 年代初迎来了一波热潮。
大约在 1990 年,我还是明尼苏达大学的一名本科生。我当时正在上并行处理课程,学习如何将一个大问题分解为可以在不同计算机上独立完成的小问题,然后让这些计算机一起协作解决问题。
主持人:那听起来有点像我们今天所说的并行计算能力不足的问题。你们当时是怎么让计算机「像团队一样」工作的?
Jeff Dean:当时神经网络是一种特殊的机器学习和 AI 方法,基于我们对大脑工作原理的粗略近似 —— 特别是人类或其他生物的大脑如何通过神经元协同工作。这就是为什么它们被称为「神经网络」,因为它们由人工神经元组成。每个神经元与其他神经元相连,通过信号传递来决定是否对某一特定输入模式做出反应。
一个神经网络通常有很多层次。较低层次的神经元学习识别一些简单的特征,比如图像中的色块或边缘。然后,较高层次的神经元会在这些简单特征的基础上学习识别更复杂的模式,比如物体的形状,甚至是脸部的特征。
因此,通过构建这些分层的学习抽象,这些系统实际上可以发展出非常强大的模式识别能力。这就是 80 年代末和 90 年代初大家对神经网络感到兴奋的原因。
然而,当时的网络规模非常小,只能识别一些手写数字或非常简单的人工模式,远不能识别像人脸或汽车这样的复杂对象。
人们当时很兴奋,因为这些网络可以解决一些基于逻辑规则的系统无法解决的问题。神经网络可以泛化到处理凌乱的手写字符,而基于规则的系统很难做到这一点。
在听了两次关于神经网络的讲座后,我对此产生了浓厚的兴趣。我决定写一篇关于并行训练神经网络的高级荣誉论文,因为我认为我们只需要更多的计算能力。如果我们可以使用系里的一台 32 处理器的机器,是不是就能训练出一个更大的神经网络?这就是我花了几个月时间研究的内容。
主持人:那有效果吗?
Jeff Dean:是的,但不如我想象的那么好。我当时是个天真的本科生,认为 32 处理器就能让神经网络「嗡嗡作响」,快速运转起来,但实际上,我们需要大约一百万倍的计算能力,才能让这些网络真正解决实际问题。
不过,随着摩尔定律带来的 20 年计算进步,CPU 和其他计算设备变得越来越快,我们终于拥有了可以实际应用的系统,其计算能力是当时 32 处理器机器的一百万倍。
后来我重拾对神经网络的兴趣是在遇到吴恩达之后。
当时,他是斯坦福大学的老师,每周有一天在谷歌做顾问,我有一次在公司的微型厨房里遇见了他。我当时好像问了,「你在谷歌做什么工作?」他说,「我还没有弄清楚,因为我刚来。但是我在斯坦福大学的一些学生在神经网络方面取得了很好的成绩。」我说,「哦,真的吗?那我们为什么不训练一个非常大的神经网络呢?」
这就是谷歌神经网络工作的起源。然后我们成立了一个名为谷歌大脑的小团队,开始研究如何利用谷歌的计算资源训练非常大的神经网络。所以我们建立了软件基础设施,使我们能够获取神经网络描述,然后将其分解成可以在不同计算机上、由团队的不同成员完成的片段。这些计算机以它们需要的方式相互交流,以解决如何在 2000 台计算机上训练单个神经网络的总体问题。这是我们为真正扩大神经网络训练而开发的最早的软件。它让我们能够训练比现有神经网络大 50 到 100 倍的模型。
主持人:这大概是 2011 年的时候,对吗?
Jeff Dean:是的,那是在 2012 年初。
主持人:所以这是图像识别领域取得重大突破之前的事情,对吧?这听起来像是很早期的工作。在很多方面,你当时做的事情其实和你之前做的一样,只不过是把多个计算机结合起来工作。
Jeff Dean:是的,就像我本科毕业论文里做的那样。只不过这次做出的神经网络真的能用了,因为我们的计算机变得更快,而且我们用了更多的计算机。
主持人:但在 2011 年,你觉得这是一场赌博吗?
Jeff Dean:哦,是的,绝对是。我们当时构建了一个系统,用来训练这些神经网络,并尝试不同的方法来分解这些网络。我把这个系统命名为 DistBelief,一部分原因是因为许多人认为这不会真正起作用,另一部分原因是它是一个分布式系统,除了神经网络之外,我们还想要训练的是「信念网络」。
谷歌收购 DeepMind,提议来自史上最强 60 岁「实习生」Hinton
主持人:这太惊人了。当这一切发生时,在大西洋彼岸,一家名为 DeepMind 的公司正在崭露头角。
2011 年,Demis Hassabis 创立了 DeepMind
Jeff Dean:是的。
主持人:你就是提出想去考察 DeepMind 的人,对吧?给我们讲讲这个故事吧。
Jeff Dean:好的。Jeffrey Hinton,他是非常有名的机器学习研究者。他在谷歌度过了一个夏天,那大概是 2011 年。我们不知道该如何给他定位,
所以 Hinton 被归类成实习生了
。想想还挺好笑的。
主持人:历史上最高级的实习生。
历史上最高级的「实习生」
Jeff Dean:所以,他和我一起工作,不知怎地,我们发现了 DeepMind。Hinton 应该更了解 DeepMind,比如公司的构成。其他一些人也提到过,说:「哦,是的,英国有这么一家公司。」
主持人:当时 DeepMind 的规模还很小。
Jeff Dean:是的,当时他们大概只有 40 到 50 个人。所以我们决定代表公司,把他们当成潜在的收购对象考察。后来我在加州,Hinton 回到了多伦多,他要回去教课。
还有,Hinton 的背不好,所以他不能长时间坐飞机,因为他不能坐下来,他只能躺下或站起来。你在飞机起飞时站起来,机长可能要不开心了。那我们必须想办法解决,于是我们在私人飞机上安排了一张医疗床。我们一群人从加州起飞,飞往多伦多,在停机坪上接上 Hinton,并把他安置到飞机上的医疗床上。
再一起飞到英国,降落在一个小机场。机场在郊区。我们上了一辆商务车,成群结队地去参观 DeepMind。当时 DeepMind 大概在罗素广场附近办公。前一天晚上我们坐飞机真的很累,但 DeepMind 带来了连续 13 场 20 分钟的讲座,他们汇报各自的业务。
主持人:一个组一个组地来吗?
Jeff Dean:是的。所以我们看到了 DeepMind 的工作成果。
主持人:当时时差还没倒过来吧?
Jeff Dean:是的,时差还没倒过来呢!
主持人:这好像情景喜剧的剧情。
Jeff Dean:没错。所以我们听了一些他们正在研究的 Atari 的报告,后来他们也发表了如何运用强化学习让 AI 学会玩旧版 Atari 2600 游戏的相关论文,比如「breakout」或者接乒乓球,各种各样的有趣小游戏。
2016 年,DeepMind 为强化学习引入无监督辅助任务,使得人工智能的 Atari 游戏水平达到人类的 9 倍。
主持人:因为当时谷歌还没开始做强化学习,对吧?
Jeff Dean:是的。我们当时主要都在扩大规模,大规模的监督和无监督学习。
主持人:强化学习更受奖励的激励。
Jeff Dean:是啊。我认为这些技术都有用,它们往往结合起来使用。我们可以这么来理解强化学习:有某些智能体要在某个环境中进行一些动作,每一步都有很多决策要做,有很多动作可以选择。
例如,在围棋游戏中,你可以把棋子放在棋盘里的任意位置,你可以上下左右移动 Atari 的操纵杆,你也可以按控制方向的按钮。通常在这种情况下,你不会立即得到奖励,比如在棋盘上放了一枚棋子,你不知道这一步走得好不好,直到整个棋局结束了才知道。
强化学习有一个有趣之处,它能够处理较长的动作序列,并根据你做出这些动作时的预期程度,将奖励或惩罚分配给你采取的动作序列。比如这是一个好的想法吗?AI 按这个想法赢了,那就倾向这个方向一点;输了,那就别太觉得那是个好主意。这大概就是强化学习的主要思想。这是个相当有效的方法,尤其是在不清楚这是否是个好主意的情况下。
相比之下,监督学习是你有输入,并且有实际的输出。举一个经典的例子来说,这里有一堆图像,每张图片都标了一些特征。比如,这是一张图,画面中的物体是汽车。这是另一张图,画面中的物体是鸵鸟。这里有另一张图,画面中的物体是石榴。
主持人:你去 DeepMind 考察的时候,做了要收购的决定,那 Demis 紧张吗?
Jeff Dean:他紧不紧张,我不知道。我当时说:「好,我听过了这些精彩的演讲,但是我能看一点代码吗?」因为我想确认这些演示背后确实有真实的代码,并且看看他们的编码标准如何,像是人们是否真的写了注释,类似这样的东西。
Demis 有点不确定。我说:「不必给我看机密代码,只需选择一些代码并向我展示。」
于是我和一个工程师走进一间办公室,我们坐下来了 10 分钟。我说:「好,这段代码是做什么用的?」哦,原来是做这个的。那段是做什么用的?在哪里能向我展示这一功能的实现?我很满意地走出了那间办公室。
主持人:他们的代码很整洁。
Jeff Dean:
那是相当整洁。
对于试图快速发展的小公司来说,它是一种研究代码,但你清楚地知道 DeepMind 的代码有趣且有据可查。
主持人:我听说你编写代码时,会添加一个名为「lgtm」的东西。
Jeff Dean:是的,对我来说很有用。我在现实生活中也用它,不仅仅是为了代码审查。
主持人:好吧,那么在 DeepMind 展示的 PPT 中,有什么展示给你留下印象了吗?
Jeff Dean:他们的工作看起来非常有趣,特别是在强化学习这方面。谷歌专注于扩大规模,所以我们训练的模型比 DeepMind 的模型大得多。当时 DeepMind 正在做各种尝试,但他们当时主要用强化学习解决 AI 玩游戏的问题。游戏是一个很好的、干净的强化学习环境,但似乎结合了强化学习加上谷歌一直在做的扩展,最后的成果将会很惊艳。
主持人:这就像是对问题两面夹击,一方面通过强化学习,从微处着手,逐步构建;另一方面,从扩大模型的规模来解决问题。当你把各方面结合起来时, 便能释放出强大的力量。
Jeff Dean:是的,确实如此。这也是我们去年将 DeepMind、Google Brain 和其他 Google 研究部门合并的主要原因。我们决定将这些部门合并在一起,成立 Google DeepMind。
构建 Gemini 的想法早于合并之前,我们都在尝试训练真正高质量、大规模、多模态模型。合并前是分散想法、各部门之间合作少、并分散宝贵的计算资源等是没有意义的。我们应该把所有这些放在一起,建立一个联合团队来解决问题。
主持人:那为什么叫 Gemini?
Jeff Dean:
实际上是我给起的名字。