专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
每日经济新闻  ·  DeepSeek大消息,7000亿巨头一度涨 ... ·  21 小时前  
贵州市场监管  ·  《哪吒2》登顶!用来重塑哪吒肉身的“藕粉”, ... ·  20 小时前  
贵州市场监管  ·  《哪吒2》登顶!用来重塑哪吒肉身的“藕粉”, ... ·  20 小时前  
每日豆瓣  ·  来看看全家托举我做出来的竹筒饭 ·  4 天前  
方胖子朱雀大街  ·  方大侠:你能做到我这样,那你就能大赚了! ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

深度学习之父 Hinton 万字访谈录:中美 AI 竞赛没有退路可言(GPT-4o总结版)

人工智能学家  · 公众号  ·  · 2024-06-02 17:39

正文

视频链接: https://www.youtube.com/watch?v=tP-4njhyGvo&t=660s

访谈介绍: Joel Hellermark 与 AI 教父 Geoffery Hinton 的深度对话

Geoffery Hinton

近日,27 岁的天才创始人 Joel Hellermark 与 “AI 教父” Geoffery Hinton 进行了一场深入对话。在这次访谈中,Hinton 回顾了自己的人工智能生涯,并探讨了神经网络、Scaling Law、多模态学习、模拟计算和人工智能伦理安全等多个话题。此外,Hinton 还分享了他对其得意门生 Ilya Sutskever 的看法,给人以深刻的启迪。

Joel Hellermark

Hinton 的人工智能之路

早期求学与科研经历

Geoffery Hinton 的人工智能之路始于剑桥大学,他在剑桥大学最初学习生理学,试图通过生理学课程来理解大脑的工作原理。然而,他很快发现 生理学课程 只涉及神经元如何传导动作电位,而未能揭示大脑整体的工作机制,这令他非常失望。随后,他转向 哲学 ,希望通过哲学课程了解心灵的运作方式,但结果同样令人失望。最终,他选择了人工智能,并在爱丁堡大学攻读 人工智能博士 学位,1978 年获得了博士学位。

Hellermark:我们回到起点 —— 剑桥时期的你。当时,你试图理解大脑的工作方式,那时是什么情况?
Hinton:那是段非常令人失望的时光。我当时主要研究生理学。在夏季学期,他们要教我们大脑是如何工作的。他们教的只是神经元如何传导动作电位,这非常有趣,但它并没有告诉你大脑是如何工作的。 所以那非常令人失望。随后,我转向了哲学。那时的想法是,也许哲学会告诉我们思维是如何工作的。结果同样令人失望。我最终去了爱丁堡大学学习人工智能,那更有趣。至少你可以模拟东西,这样你就可以测试理论了。
在爱丁堡大学期间,唐纳德·赫布(Donald Hebb)的一本书对 Hinton 产生了深远影响,书中介绍了神经网络中的连接强度学习。Hinton 还提到约翰·冯·诺依曼(John von Neumann)的书《计算机与人脑》,这本书进一步激发了他对人工智能的兴趣。
Hellermark:你还记得是什么让你对 AI 产生了兴趣吗?是读了某篇论文吗?还是某个特定的人向你介绍了这些想法?
Hinton:我想是 Donald Hebb(加拿大心理学家,认知心理生理学的开创者)写的一本书对我产生了很大影响。他对如何在神经网络中学习连接强度非常感兴趣。我还读了冯・诺依曼(计算机之父)的书,他对大脑如何计算以及它与普通计算机有何不同非常感兴趣。

Donald Hebb即上一期中提到的Hebbian学习规则发明人

在卡内基梅隆大学的经历

Hinton 在 1982 年前往卡内基梅隆大学担任计算机科学系教授,直到 1987 年。在卡内基梅隆大学,他接触到了一台 Lisp 机器,这使他开始编写程序。他回忆到,在某个周六晚上,他发现自己无事可做,于是决定去实验室编写一些程序。这次经历让他认识到,美国的学生对未来充满激情,令他耳目一新。

我还与 Peter Brown 有很好的合作,他是一位非常优秀的统计学家,在 IBM 工作,研究语音识别。他是作为一名成熟的学生来到卡内基梅隆的,为了拿到博士学位。其实他已经懂得很多了。
他教了我很多关于语音的知识,教了我隐马尔可夫模型。我觉得我从他那里学到的比他从我这里学到的要多。这就是大家都想要的那种学生。当他教我隐马尔可夫模型时,我正在用隐藏层做反向传播。
那时它还不叫隐藏层。我认为马尔可夫模型中使用的这个名字对于那些你不知道它们在干什么的变量来说是一个很好的名字。 所以这就是神经网络中「隐藏层」名字的由来。

隐藏层这个名字来源于隐马尔科夫模型

与 Ilya Sutskever 的合作

初次见面与早期合作

Hinton 回忆了与 Ilya Sutskever(Ilya Sutskever即前段时间刚刚离职的OpenAI首席科学家) 的初次见面。他描述了 Ilya 是如何在某个周日急切地敲门,要求加入他的实验室。

“所以我们聊了一会儿,我给了他一篇论文阅读,那是关于反向传播的《自然》(Nature)论文。我们约定一周后再见面,他回来后说:“ 我没看懂。

我感到非常失望。我想:“ 他看起来挺聪明的,但这只是链式法则而已。理解起来并不难。
他却说:“ 哦,不,不,那个我懂。我只是不明白 —— 为什么不直接将梯度(即损失函数相对于模型参数的导数)应用于一个更合理的函数优化器呢? ” 后来,这个问题成为了我们多年研究探讨的重点。Ilya 就是这样,他对事物的直觉总是非常敏锐。”
Ilya 的直觉和独立思考能力让 Hinton 深感佩服。Ilya 的直觉总是非常敏锐,这使得他在研究中提出了许多富有创意的想法。例如,他们在研究如何用数据制作复杂的地图时,Ilya 提出编写一个接口,以便在另一种语言中编程,并直接转换成 MATLAB 代码,这显著提高了他们的工作效率。
Hinton:跟他合作非常有趣。我记得有一次我们试图用一种复杂的方法制作数据图,我有一种混合模型,你可以用同样的一组相似性制作两张图。这样在一张图上,银行可能离绿地很近,在另一张图上,银行可能离河流很近。
因为在一张图上,你不能让它同时离两者都很近,对吧?因为河流和绿地距离很远。
我们用 MATLAB 做这件事,这涉及到大量的代码重组,以进行正确的矩阵乘法。然后他厌烦了。所以有一天,他说,「我要去为 MATLAB 写一个接口。我要用这种不同的语言编程,我有一些东西可以将其转换为 MATLAB。」
我说,「不,Ilya,那将花费你一个月的时间。我们必须继续这个项目。不要被那个事情分散注意力。」Ilya 说,「 没关系,我今天早上就做好了。
Ilya 的贡献与影响
Ilya 是 Hinton 的得意门生之一,他对反向传播算法有着深刻的理解。Hinton 认为,Ilya 的观点,即 增加模型规模会带来更好的效果,是正确的 。尽管 Hinton 起初认为这只是逃避复杂问题的一种方式,但事实证明,数据规模的扩大和计算能力的提升确实是推动人工智能进步的关键因素。

左一为 Ilya ,右一为 Hinton

中间则是 Alex Krizhevsky

三人合作设计了 AlexNet

ImageNet 比赛取得了冠军

Scaling Law 与创造力

模型规模与性能
在讨论 GPT-4 的创造力时,Hinton 强调了 数据规模 计算能力 的提升对于人工智能发展的重要性。他指出,Ilya 很早就意识到模型规模增加会带来更好的效果,这一观点在如今得到验证。 Hinton 认为,随着模型规模的扩大,AI 的创造力甚至会超过人类。
Ilya 很早就有了那种直觉。所以 Ilya 总是说,你只要把它做得更大,效果就会更好。我总觉得这有点逃避现实,你也得有新想法。结果,他的直觉基本上是正确的。新的想法有帮助。Transformer 之类的东西帮了大忙,但真正的问题在于数据的规模和计算的规模。
那时,我们根本不知道计算机会快上 10 亿倍。我们以为也许会快上 100 倍。我们试图通过提出一些聪明的想法来解决问题,但如果我们有更大的数据和计算规模,这些问题就会迎刃而解。

Ilya一段时间以前还是OpenAI的首席科学家,OpenAI发表了scaling law,即模型做得越大性能越好

创造力的来源

Hinton 认为,GPT-4 的创造力来自于其 对事物间共同结构的理解 。通过发现这些共同结构,模型能够高效地编码信息,并进行类比。例如,当被问到“为什么堆肥堆像原子弹”时,GPT-4 能够理解并联想到链式反应的概念,从而给出合理的回答。Hinton 认为,这种类比能力将使 GPT-4 变得非常有创造力,甚至超越人类。

Hinton:这些大型语言模型所做的是寻找共同的结构。它们可以使用共同的结构来编码事物,这样更有效率。

举个例子,如果你问 GPT-4,为什么堆肥堆像原子弹?大多数人回答不出来。大多数人没有想过,他们会认为原子弹和堆肥堆是非常不同的东西。但 GPT-4 会告诉你,它们的能量规模非常不同,时间规模非常不同。但它们的共同点是,当堆肥堆变得更热时,它产生热量的速度更快;当原子弹产生更多的中子时,它产生中子的速度也更快。所以这就得到了连锁反应的概念。

我相信它理解这两种连锁反应,它使用这种理解将所有这些信息压缩到它的权重中。如果它确实在这样做,那么它将会对我们还没有看到的所有事物进行同样的操作。 这就是创造力的来源 —— 看到这些表面上截然不同的事物之间的类比关系。
所以我认为,当 GPT-4 变得更大时,它最终会变得非常有创造力。 那种认为它只是在重复学习过的东西,只是把已经学过的内容粘贴在一起的想法,是完全错误的。它会比人类更有创造力。

有一个很久以前的实验,你训练一个神经网络来识别手写数字。我非常喜欢这个例子。你给它的训练数据中有一半的标签是错误的。问题是它能学得多好?而且这些错误标签是固定的,每次看到特定样本时它都与相同的错误标签配对,所以它不能通过多次看到相同样本但标签有时正确有时错误来平均化这些错误。训练数据中有 50% 的错误标签,但如果你用反向传播训练神经网络,它的错误率可以降到 5% 以下。

换句话说,即使从标注错误的数据中,它也能得到更好的结果。它能够识别出训练数据中的错误。 这就像聪明的学生比他们的导师更聪明。导师告诉他们很多东西,但有一半的信息是错误的,学生能分辨出哪些是错的,只听正确的那一半,最后比导师更聪明。 所以这些大规模神经网络实际上能够做到的比它们的训练数据更好,大多数人并没有意识到这一点。

关于认知的三种观点

象征性观点: 认知是通过清晰的、没有歧义的逻辑语言符号字符串进行的。认知就是对这些符号字符串进行操作。这是一种极端的象征主义观点。

向量观点: 进入大脑的一切都是向量。符号被转换为大型向量,所有的认知和理解都是通过这些向量完成的。比如在机器翻译中,单词会被转换成隐藏状态的向量,捕捉句子的含义,并产生输出。

嵌入观点: 大脑将符号转换为嵌入(向量),并使用多层嵌入进行认知。这些嵌入仍然与符号相关联,通过向量的相互作用来预测下一个符号的向量。这种观点认为,符号的表面结构被保留, 但实际的认知过程在于向量的使用和相互作用。这也是大型语言模型的工作方式,现在被认为是人类思维的更合理模型。

Hinton:关于语言是否进化到与大脑配合,或者大脑是否进化到与语言配合的问题,我认为这是一个非常好的问题。我认为两者都发生了。

我曾经认为我们会在根本不需要语言的情况下进行很多认知活动,但现在我改变主意了。我举三种关于语言以及它与认知的关系的观点。

第一种,老式象征性观点,即认知由一些清理过的逻辑语言中的符号字符串组成,没有歧义,且应用推理规则。因此认知只是对像语言符号字符串这样的东西进行符号操作。这是一种极端观点。

另一种极端观点是:一旦进入大脑内部,一切都是向量。符号进来,你将这些符号转换为大型向量,所有的洞察都是用大型向量完成的。如果你想产生输出,你将再次产生符号。所以在 2014 年的机器翻译中有一个时刻,人们使用循环神经网络,单词会不断进来,它们会有一个隐藏状态,并在这个隐藏状态中不断累积信息。所以当到达句子的结尾时,就有一个大的隐藏向量,捕捉了句子的含义。然后它可以用来产生另一种语言中的单词,这被称为思维向量。这是关于语言的第二种观点。

还有第三种观点,也是我现在相信的,即大脑将这些符号转换为嵌入,并使用多层嵌入。所以你将得到非常丰富的嵌入。但嵌入仍然与符号相关联,从这个意义上讲,符号有其对应的大向量。这些向量相互作用产生下一个词的符号的向量。因此理解是指知道如何将符号转换为向量,以及向量的元素如何相互作用以预测下一个符号的向量。这就是大型语言模型以及我们的大脑中的理解方式。你保留符号,但将其解释为大向量。

所有的工作以及所有的知识都在于使用哪些向量以及这些向量的元素如何相互作用,而不是在符号规则中。但这并不是说你完全摆脱了符号,而是说将符号转换为大向量,但保留符号的表面结构。这就是大型语言模型的运作方式。现在我认为这似乎也是人类思维一个更合理的模型。

多模态学习的优势

多模态学习的定义

Hinton 认为, 多模态学习(结合语言、图像、视频和声音等多种信息) 将显著提高模型的推理能力和理解能力。他提到, 多模态系统可以更好地理解空间关系和物体,并减少对语言的依赖。

Hellermark:你如何看待多模态?当我们引入图像、视频和声音时,你认为这将如何改变模型?
Hinton:我认为这会有很大的改变。我认为这会让模型在理解空间事物方面做得更好。例如,仅从语言来理解一些空间事物相当困难,尽管令人惊讶的是,即使在成为多模态模型之前,GPT-4 也能做到这一点。但是当 GPT-4 成为多模态模型时,如果你同时让它做视觉和触觉,伸手去抓取东西,它会更了解物体。
所以 尽管你可以从语言中学到很多东西,但如果是多模态,学习会更容易。 实际上,你需要的语言就更少了。例如,有很多 YouTube 视频可以预测下一个画面。所以我认为多模态模型显然会占据主导地位。这可以获得更多数据,需要的语言会更少。所以这是一个哲学观点,你可以仅从语言中学到一个很好的模型,但从多模态系统中学到它要容易得多。

多模态学习的应用

通过多模态学习,模型可以获得更多的训练数据,从而提高其性能。例如,预测 YouTube 视频的下一帧可以让模型获得更多的数据,同时减少对语言的依赖。这种学习方式将使模型在处理多种感官输入时变得更加高效和直接。

Hellermark:你认为这将如何影响模型的推理?
Hinton:我认为这会让模型在空间推理方面做得更好。例如,关于如果拿起物体会发生什么的推理。如果真的尝试拿起物体,你会得到各种各样的训练数据。

模拟计算的挑战

模拟计算的潜力
Hinton 谈到了自己在谷歌研究模拟计算的经历,尽管未能成功实现这一目标,但他强调数字系统在知识共享方面的优越性。数字系统的权重可以在不同硬件上复制和共享,而模拟系统则难以实现这一点。
知识共享的优势

由于数字系统的权重可以被保存并在任意兼容的数字系统上重现,这使得 数字系统在知识共享方面比人类更加优越。 数字系统可以通过微小的学习更新,实现集体知识的即时同步,这是人类目前无法做到的。

Hinton:我在谷歌的最后几年,我一直在思考如何尝试进行模拟计算。即 不是使用像一兆瓦这样庞大的电力,而是使用像大脑一样的 30 瓦电力,就可以在模拟硬件中运行大型语言模型。
这一点我从未实现过。但我开始真正欣赏数字计算。 如果你要使用低功耗模拟计算,每个硬件都会有所不同,要利用硬件的特定属性。这就是发生在人类身上的事情。我们所有人的大脑都不同,所以我们不能把你大脑中的权重拿出来放进我的大脑。 硬件是不同的。单个神经元的确切属性是不同的。
当我们去世后,我们的知识和经验大部分会随之消失,因为人类传递知识的方式通常涉及语言交流,这种方式相对效率较低。然而,数字系统则不同,它们可以通过共享权重(即学习过的数据和参数)来传递知识。一旦一个数字系统学习了某些知识,这些权重就可以被保存并在其他任何相同配置的系统中重用。这种方式不仅保证了知识的精确复制,还极大提高了学习和知识共享的效率。因此,数字系统在共享和扩散知识方面,具有远超人类的能力。

Hellermark询问了解AI模型和大脑工作原理对Hinton思考方式的影响,Hinton认为影响深远。

以前,AI领域普遍认为仅靠大量数据训练一个大规模的随机神经网络来学习复杂事物是不可能的。

然而,事实证明, 通过大量数据和随机梯度下降法调整权重,庞大的随机神经网络可以学习复杂事物

这改变了我们对大脑结构的理解,表明 大脑不需要先天具有所有结构性知识 ,也挑战了乔姆斯基关于语言学习必须依赖先天大脑结构的理论,即 复杂的语言学习必须依赖于先天就编织在大脑中的结构,并且要等待这种结构成熟

事实证明,你可以通过大量数据训练一个庞大的随机神经网络,利用随机梯度下降方法不断调整权重,从而学习到复杂的事物。这一发现对我们理解大脑的结构具有重要意义,表明大脑并不需要天生就具有所有的结构性知识。 当然,大脑确实具有许多先天结构,但它显然不需要依赖这些结构来学习那些容易获得的知识。

选择研究问题的方法

Hinton: 我和我的学生做了很多最有意义的事情。 这主要归功于与学生的良好合作以及我挑选优秀学生的能力。 这是因为在上世纪 70 年代、80 年代、90 年代以及进入 21 世纪,很少有人研究神经网络。 所以从事神经网络研究的少数人能够挑选到最优秀的学生,还需要依靠一点运气。

Hinton描述了他选择研究问题的方法。他会寻找那些 被普遍接受但看起来有些不对劲的问题 ,凭借微妙的直觉感知到可能存在的问题。然后,他通过详细研究和简单的计算机模拟来验证这些问题, 通常证明这些普遍接受的观点是错误的 。例如,他提到添加噪声通常被认为会降低神经网络的效果,但实际研究表明它可以提高泛化能力。这种方法使他能够通过直觉和实验发现新的研究方向。

让我举一个例子。大多数人认为,如果你给神经网络添加噪声,它的效果会变差。实际上,我们知道如果这样做,它的泛化能力会更好。

需要得到重视的快速权重

Hinton 称,人工智能和神经科学的一个重要区别在于时间尺度的变化。在神经网络中,存在 快速时间尺度 的活动变化和 慢速时间尺度 的权重变化。大脑中也有这两种时间尺度。

Hellermark:很多已经在实际应用中部署的人工智能系统的理念源于早期的神经科学理论,这些理念已经存在了很长时间。现在的问题是,还有哪些未被充分利用的神经科学理论可以应用到我们开发的系统中?这需要我们探索神经科学中的未被充分挖掘的理论,将它们转化为技术,以推动人工智能技术的进一步发展。  Hinton:在人工智能与神经科学的对比中,一个我们仍需追赶的重要方面是变化的时间尺度。在几乎所有的神经网络中,都存在快速时间尺度的活动变化 —— 输入数据后,嵌入向量会发生变化。而另一种是慢速时间尺度,即权重的变化,这关系到长期学习。在大脑中也有这两个时间尺度。

例如,如果我突然说出一个意外的词,比如黄瓜,五分钟后你戴上耳机,在嘈杂的环境中,如果有很轻微的话语声,你会更容易识别出黄瓜这个词,因为我五分钟前说过它了。那么这个知识存储在哪里呢?在大脑中。这种认知显然是 暂时性的突触改变 所保存的,而不是特定的神经元来保存 —— 我们的大脑中并没有足够多的神经元来做这种事。这种暂时性的权重改变, 我称之为快速权重 ,在我们目前的神经模型中并没有应用。







请到「今天看啥」查看全文