文:Web3天空之城(公众号ID:Web3SkyCity)【城主说】 正在举行的深度学习顶会NeuralPS2024上,Ilya意外现身会场做了主题演讲。AI巨佬上来就是王炸:直接断言当下大模型的核心“预训练”机制即将走到终结。同时提出了对未来AI进展方式的展望。
以下和大家解读Ilya这个备受关注的主题演讲的重点,同时附上全文和视频供有兴趣的同学进一步研究。
过去| 深度学习的早期假设
神经网络的能力:
十年前,Ilya 和他的团队假设,如果一个神经网络拥有十层,它就能够在一瞬间完成任何人类能够完成的任务。这个假设基于深度学习的核心理念,即人工神经元与生物神经元在某种程度上是相似的。由于生物神经元的处理速度相对较慢,因此如果人类能够在一瞬间完成某项任务,那么一个足够大的神经网络理论上也应该能够做到。十层这个数字尽管现在看起来比较幼稚,但反映了当时对深度学习潜力的乐观预期。
自回归模型的贡献和局限:
Ilya 回顾了十年前他们在 NeurIPS 会议上提出的关于自回归模型的一些观点。当时的一些观点是正确的,但也有观点是错误的。
正确观点:自回归模型能够捕捉序列的正确分布:如果一个自回归模型能够很好地预测下一个标记,那么它实际上就抓住了接下来序列的正确分布。这一点在当时是一个相对较新的想法,也是他们工作的核心。这一观点推动了自回归模型在机器翻译等领域的应用,并最终促成了预训练时代的到来,例如 GPT 模型的出现。
错误观点:流水线并行化是明智的:他们在当时使用了流水线并行化来加速训练过程,但在今天看来,这种方法并不是最佳选择。现在的深度学习模型训练更倾向于使用其他并行化策略。
现在| 关于预训练时代的终结
Ilya在演讲中深入探讨了“预训练时代”,这是一个深度学习领域取得巨大进步的时期。
预训练时代的核心是使用超大型神经网络在海量数据集上进行训练,然后再针对特定任务进行微调。 这种方法极大地提高了模型的性能,并在自然语言处理、计算机视觉等领域取得了突破性进展。GPT 模型系列就是预训练时代最具代表性的成果。
但是,Ilya认为,预训练时代即将走向终结。虽然计算能力通过更好的硬件、更好的算法和更大的集群在增长,但数据量却没有相应的增长。他将数据比喻为人工智能的“化石燃料”,认为我们已经达到了数据的巅峰,再也不会有更多的数据。
预训练时代终结的原因:
预训练时代结束后,深度学习将走向何方?Ilya提出了几种可能性:
代理 (Agents): 代理可以自主学习和行动,有望成为深度学习的新突破口。
合成数据: 合成数据可以弥补真实数据不足,但如何生成高质量的合成数据是一个挑战。
推理时间计算: 推理时间计算可以提高模型的效率和灵活性。
从生物学中汲取灵感: 生物系统,特别是人脑的运作机制,可以为深度学习提供新的启示。
Ilya 认为,未来深度学习的关键在于找到新的方法来克服数据量的限制。这需要探索新的学习算法,例如能够从有限数据中学习的算法,以及更高效地利用计算资源的算法。
未来| 超智能:深度学习的终极目标?
Ilya 在演讲中谈到了超级智能的概念,并认为这是深度学习发展的终极目标。虽然他没有详细阐述超级智能的定义和实现路径,但从他的演讲中,我们可以总结出他对超级智能的一些理解:
与人类智能有质的区别:超级智能并非简单的人类智能的增强版,而是拥有全新的能力和属性。这就像类人猿的大脑进化与其他哺乳动物的显著差异一样,超级智能也可能以一种我们无法预见的方式超越人类智能。
具备强大的代理能力:超级智能将不再是被动的信息处理系统,而是能够主动地进行推理、规划和行动。他们将能够理解和处理复杂的现实世界问题,并做出自主的决策。
拥有自我意识:Ilya 认为,超级智能可能会发展出自我意识, 这将使其拥有更强大的学习和适应能力。 自我意识也将使超级智能能够更好地理解人类和其他智能体,并与之互动。
Ilya 并没有给出超级智能何时会出现的具体时间,但他认为这只是一个时间问题。他强调,我们应该认真思考超级智能带来的挑战,例如:
演讲全文·Web3天空之城书面版
我想感谢组织者选择这篇论文获得这个奖项。这真的非常好。我还要感谢我出色的合著者和合作伙伴,Oriol Vinyals 和 Quoc Le,他们刚才就在你面前。
你们现在看到的是一张图片,一张截图,来自十年前2014年在蒙特利尔 NeurIPS 会议上的类似演讲。这是一个更加无邪的时代。这是我们,当时拍摄的照片。这里是之前的场景。顺便说一下,这里是之后。
现在我们有了我经验丰富的,可能是护目镜的视角。但在这里,我想谈谈这项工作的内容,或许进行一个十年的回顾。因为在这项工作中的很多观点是正确的,但有些则不是。我们可以回顾这些观点,看看发生了什么,以及它是如何温和地演变成我们今天所处的位置。
那么让我们先谈谈我们做了什么。我们将通过展示十年前同一次演讲的幻灯片来进行总结。我们工作的总结如下三点:这是一个基于文本训练的自回归模型,一个大型神经网络,还有一个大型数据集。现在让我们更深入地探讨一些细节。这是一张十年前的幻灯片,还不错。我们在这里讨论的是深度学习假设:如果你有一个十层的大型神经网络,它可以在一瞬间完成任何人类能够完成的事情。
为什么我们如此强调人类在短短一秒钟内能够做的事情?为什么特别是这个内容?如果你相信深度学习的教义,或认为人工神经元和生物神经元是相似的,或者至少差异不大,并且相信真实的神经元比我们人类快速完成的任何事情都要慢,我甚至是指全世界的某一个人。如果全世界有一个人能在一瞬间完成某项任务,那么一个十层的神经网络也可以做到。这就成立了。你只需将他们的连接提取出来并嵌入到你的人工神经网络中。
这就是动机。任何一个人能够在一瞬间完成的事情,一个大型的十层神经网络也能够做到。我们专注于十层神经网络是因为当时我们只知道如何训练这样的网络。如果在层数上有所突破,就可以做更多的事情。但在那时我们只能做到十层,这就是为什么我们强调人类在瞬间内能做的任何事情。这是演讲中的另一张幻灯片,说明我们主要想法的一张幻灯片。你可能能够识别出两个东西,或者至少一个东西。你可能会意识到这里发生了一些自回归的事情。
它到底在说什么?这张幻灯片到底在说什么?
这张幻灯片讲的是,如果你有一个自回归模型,并且它能很好地预测下一个标记,那么它实际上能捕捉到接下来序列的正确分布。而这在当时是相对较新的事情。这并不是字面意义上的第一个自回归神经网络,但我认为它是第一个我们真正相信如果你训练得很好,那么你将获得任何你想要的自回归神经网络。在我们的案例中,彼时的任务是谦逊的,今天看来依旧谦逊,但当时却是极为大胆的翻译工作。
现在我将向你展示一些许多人可能从未见过的古老历史。它被称为LSTM。对于那些不熟悉的人,LSTM是以前贫困的深度学习研究者在变换器出现之前所做的事情。它基本上是一个ResNet,但旋转了90度。所以这就是LSTM。它出现得更早,有点像是略微复杂的ResNet。你可以看到这里是你的积分器,现在称为残差流,同时还有一些乘法运算。这稍微复杂了一些,但这就是我们所做的。这是一个旋转了90度的ResNet。
我想强调的另一个来自那次旧演讲的酷炫特点是我们使用了并行化。但不仅仅是任何并行化,我们使用了流水线,如同每个GPU一层的证据所示。
流水线是明智的吗?
正如我们现在所知,流水线并不是明智之举。但在那时,我们没有那么聪明。所以我们使用了这个,并在使用八个GPU时获得了3.5倍的加速。
而结论幻灯片在某种意义上,正是当时演讲的结论幻灯片,是最重要的幻灯片。因为它清楚地阐明了可以说是扩展假设的起点,也就是说,如果你拥有一个非常大的数据集,并且训练一个非常大的神经网络,那么成功是有保证的。有人可以争辩,如果你是宽容一点的话,这确实是在发生的事情。
我想提到另一个想法。而这个,我声称,是经得起时间考验的真正想法。这是深度学习本身的核心理念。这是连接主义的理念。这是一个思想,如果你允许自己相信人工神经元在某种程度上类似于生物神经元,那么这会给你信心,相信非常大的神经网络不需要与人类大脑同等规模。它们可能会小一些,但可以配置它们做几乎所有人类所能做的事情。这仍然是有区别的,因为人类大脑还会想办法重新配置自己。
我们使用的最佳学习算法需要的数据信息点与参数数量相同。在这方面,人类仍然更优秀。不过,这导致了我所称的“预训练时代”的到来。
预训练时代是指我们所讨论的GPT-2模型、GPT-3模型和缩放法则。我想特别提到我的前同事Alec Radford、Jared Kaplan和Dario Amodei,感谢他们做出的真正贡献。这一切推动了我们今天看到的所有进步,尤其是超大型神经网络。它们在巨大数据集上进行异常庞大的训练。
但是,预训练如我们所知无疑将会结束。预训练将会结束。它为什么会结束?
因为虽然计算能力通过更好的硬件、更好的算法和更大的集群在增长,但所有这些都在不断增加你的计算能力。可是数据并没有增长,因为我们只有一个内部网。你甚至可以说,数据是人工智能的化石燃料。它像是某种方式被创造出来的,现在我们使用它,但我们已经达到了数据的巅峰,再也不会有更多了。我们必须处理我们拥有的数据。我仍然认为这会让我们走得很远,但这只是一个内部网。
所以,在这里我会稍微放肆一下,推测一下接下来会发生什么。实际上,我不需要推测,因为很多人也在推测,我会提到他们的推测。你可能听过“代理”的说法。这很常见,我相信最终会发生某些事情,但人们觉得某些代理是未来。更具体地说,还有些模糊的方向是合成数据。
但合成数据是什么意思?
弄清楚这一点是一个大挑战,我确信不同的人在这里都会有各种有趣的进展。以及推理时间计算,或者最近在 O1 模型中看到的比较生动的东西。这些都是人们在预训练之后尝试弄清楚该做什么的例子。这些都是非常好的事情。我想提一个来自生物学的例子,我觉得这真的很酷。这个例子是这样的。
很多年前,在一个会议上,我看了一场演讲,有人展示了一张图表。图表显示了哺乳动物的身体大小和大脑大小之间的关系。在这个例子中,是以质量来衡量的。我记得他们在讨论中提到,生物学里一切都那么混乱,但在这里,你有一个罕见的例子,动物的身体大小和大脑之间有着非常紧密的关系。我出于好奇,对这张图产生了兴趣。
于是我在谷歌上寻找这张图。在谷歌图片中,找到了一张相关的图片。这个图像有趣的是,上面展示了各种不同的哺乳动物,以及非人类的灵长类动物,这基本上属于同一类群体。根据我的了解,类人猿是与人类在进化上密切相关的亲属,比如尼安德特人,还有许多其他的,可能称为能人。他们都在这里。有趣的是,他们的脑-体比的斜率指数不同,这很酷。这意味着有先例,有生物学找出某种不同缩放的例子,显然有些东西是不同的,所以我觉得这很酷。
顺便说一下,我想强调,这个x轴是对数尺度。你看,这里是100,这里是1,000,10,000,100,000,以克为单位:1克,10克,100克,1,000克。所以,事情有可能会有所不同。我们正在做的事情,迄今为止所扩展的事情,其实是我们最初找到的扩展方式。毫无疑问,整个领域,所有在这里工作的人,将会找出该做什么。
但是,我想在这里谈一谈,我想花几分钟时间来推测一下更长远的未来。我们都朝哪里走呢?我们在取得所有这些进展,真是令人惊讶。十年前,当您回顾这个领域时,还记得一切是多么无能吗?您当然可以说,即使已经有深度学习技术,但看到它的实际应用仍然难以置信。我无法完全表达那种感觉。
您知道,如果您在过去两年才加入这个领域,与计算机对话并得到回应是理所当然的事情,这就是计算机的本质。然而,这并不总是如此。
我想稍微谈谈超级智能,这显然是这个领域的发展方向。这是我们在这里构建的内容。超智能的特点是,它在质量上将与我们现有的技术截然不同。
接下来一分钟,我的目标是尝试给您一些具体的直觉,让您自己能够推理出它会有多么不同。现在我们拥有令人难以置信的语言模型及其出色的聊天机器人,它们甚至可以做到一些事情,但在某种程度上又奇怪地不可靠,会感到困惑,同时在评估中表现出惊人的超人能力。因此,如何调和这个问题真的很不清楚。但最终,系统迟早会实现具备代理能力的目标。目前,这些系统在有意义的层面上还不是代理。它们只是微弱地开始具有代理性功能。系统实际上会进行推理。
顺便提一下推理的问题:一个进行推理的系统,推理越多,越不可预测。我们习惯的深度学习非常可预测,因为其本质上是在复制人类的直觉反应。
如果我们考虑到0.1秒的反应时间,我们大脑中的处理就是直觉。所以我们赋予了人工智能一些直觉。但是推理却是不可预测的,我们看到了一些早期的迹象。其中一个原因是,因为下棋的人工智能,即便是对最优秀的人类棋手来说,也是不容易预料的。
因此,我们将不得不面对极其不可预测的人工智能系统。它们将从有限的数据中理解事物,不会感到困惑,而这些都是目前的重大限制。顺便说一下,我并不是在谈论如何,也不是在谈论何时。我只是说这会发生。当所有这些事情发生时,加上自我意识,因为为什么不呢?自我意识是有用的。它是我们自己的一部分,是我们自己世界模型的一部分。当所有这些事情汇聚在一起时,我们将拥有与今天截然不同的质量和属性的系统。它们将拥有令人难以置信和惊人的能力。但是,这样的系统所带来的问题,我将把它留作想象的练习。这与我们习惯的非常不同。
而且,我会说,预测未来肯定也是不可能的。真的,各种事情都是可能的。但在这个振奋人心的音符上,我将结束。非常感谢。谢谢。
(全场长时间掌声)
Q&A:
问:在2024年,有没有其他生物结构是人类认知的一部分,你认为值得以类似的方式探索,或者是你感兴趣的任何方式?
答:所以,我回答这个问题的方式是,如果你或者某人有一种特定的洞见,认为我们都非常愚蠢,因为大脑显然在做某些事情,而我们却没有,这可以做的话,他们应该去追求它。我个人不这样做。这要看你所关注的抽象层次。也许我会这样回答,对生物启发的人工智能有很大的渴望。你可以在某种程度上认为,生物启发的人工智能是非常成功的,因为深度学习的所有内容都是生物启发的人工智能。但另一方面,生物启发是非常有限的,这仅仅使用神经元,这就是生物启发的全部程度。更详细的生物启发一直很难获得。但我不会将其排除在外。我认为如果有人有独特的洞见,他们可能会看到一些东西,这会是有用的。
问:我有一个关于自动校正的问题问你。你提到推理作为未来建模的核心方面之一,也许是一种区分因素。我们在一些海报会议中看到的是,模型中的幻觉现象。今天我们分析这种幻觉现象的方式,也许你可以纠正我,因为你是这个领域的专家。我们知道模型缺乏推理能力的危险,因此我们正在使用统计分析的方法,比如某个标准差或距均值的距离等。在未来,你不觉得给定推理的模型将能够自我纠正,或者说自动纠正,这将是未来模型的核心特性,以便减少许多幻觉,因为模型会识别出何时发生幻觉?也许这个问题太抽象了,但模型将能够推理并理解何时发生幻觉?这个问题有意义吗?
答:是的,答案也是肯定的。我认为你所描述的极其可信。你应该去检查。我不会排除目前一些早期推理模型可能已经在发生这种情况,我不知道。但是,从长远来看,为什么不呢?这是Microsoft Word的一部分,自动纠正是核心特性。
我认为将其称为自动纠正实际上是对其的不公。当你提到自动更正时,你似乎觉得它比自动更正要宏伟得多,但撇开这一点,答案是肯定的。
问:谢谢。伊利亚。我喜欢这个结局,神秘地留下了悬念,他们会取代我们吗?或者他们更优越吗?他们需要权利吗?
答:这是一种新的人类智力物种。所以,也许他们需要这些东西。我觉得现实生活中的一些人认为我们需要为这些事物争取权利。
问:我有一个与此无关的问题。我们该如何创造正确的激励机制,让人类实际上能够以给予他们作为智人所拥有的自由的方式来创造它?
答:我觉得在某种意义上,这就是人们应该更多反思的问题。但是关于我们应该创造什么激励结构的问题,我并不觉得我知道。我对回答这样的问题没有信心,因为这就像在谈论创造某种自上而下的政府结构,我不知道。这也可能是一种加密货币。
我的意思是,有 BitTensor,有些事情。我觉得我不是评论加密货币的合适人选,但是。但是,顺便说一下,你所描述的事情有可能会发生,确实在某种意义上,如果你有人工智能,而他们所想的只是与我们共存并拥有权利,也许那样还不错。
但我不知道,我的意思是事情是如此不可预测。我犹豫要发表评论,但我鼓励这种推测。
问:感谢你的精彩演讲。我叫Shalev Lifshitz,来自多伦多大学,与Sheila一起工作。感谢你所做的所有工作。我想问一下,你认为大语言模型(LLM)能否在分布外进行多跳推理的泛化?
答:这个问题的假设是答案只有“是”或“否”,但实际上问题不应该只用“是”或“否”来回答。因为“分布外泛化”是什么意思呢?分布内的意思是什么,分布外的意思又是什么?由于这是一次关于时间的讨论,我想说很久以前,在人们使用深度学习之前,依赖的是字符串匹配这类的方法,比如N-元组。对于机器翻译,人们使用的是统计短语表。你能想象吗?他们有成千上万的复杂代码,这真的让人难以理解。
在那时,泛化的意思是数据集中措辞是否完全不同。现在,我们可能会说,我的模型在某个数学竞赛上获得了很高分数,但也许这些数学题或某个论坛上的一些讨论谈论的是相同的想法,因此它被模型记住了。好吧,你可以说,也许它在分布内,也许这是记忆,但我也认为我们对什么算作泛化的标准确实大幅提高了,这种提高是戏剧性的,不可思议的,如果你一直在跟踪的话。
因此,我认为答案在某种程度上可能不如人类好。我认为人类的确在概括方面做得更好,但与此同时,他们确实在某种程度上越界概括。
我希望这是一个有用的同义反复的回答。谢谢。