专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

Ilya Sutskever：预训练模式已经走到尽头

人工智能学家 · 公众号 · AI · 2024-12-14 17:11

正文

来源：孔某人的低维认知

原视频地址：

https://x.com/vincentweisser/status/1867719020444889118

先是报告正文，末尾是我的一点个人评论。

首发的V1版本是用的一个语义浓缩workflow做的，但经过改写后可能会丢失一些细微的意思，影响大家咬文嚼字。所以还是重新制作了一个直译版本，就是V2。

正文

Ilya Sutskever:

感谢组织者选择这篇论文（Sequence to Sequence Learning with Neural Networks）获奖，这让我非常高兴。我还要感谢我出色的共同作者和合作伙伴Oriol Vinyals和Quoc Le。

这里有一张图片，是10年前2014年在蒙特利尔NeurIPS会议上类似演讲的截图。那是一个更加单纯的时期。这些照片展示了我们的对比：这是之前的样子，这是之后的样子。现在我们希望变得更有经验了。

在这里，我想回顾一下这项工作本身，做一个10年的回顾。这项工作中很多观点是正确的，但也有一些不太准确。让我们回顾一下，看看事情是如何逐渐发展到今天的。

我们将通过展示10年前同一个演讲的幻灯片来介绍我们做了什么。我们的工作可以用以下三点来总结：这是一个在文本上训练的autoregressive model（自回归模型），它是一个大型神经网络，使用了大规模数据集。就这么简单。现在让我们深入了解更多细节。

这是10年前的一张幻灯片，看起来还不错——深度学习假说。我们当时提出，如果你有一个拥有10层的大型神经网络，它就能完成人类在一瞬间能做到的任何事情。为什么我们要特别强调人类在一瞬间能做到的事情？为什么要特别强调这一点？

实际上，如果你相信深度学习的教条，即人工神经元和生物神经元是相似的或至少差异不大，而且你相信真实的神经元运行速度较慢，那么任何我们（人类）能快速完成的事情——这里我指的是全世界任何一个人——如果世界上有一个人能在一瞬间完成某项任务，那么一个10层的神经网络也能完成。这是可以推导出来的，你只需要把这些连接嵌入到你的人工神经网络中即可。

我们之所以关注10层神经网络，是因为那时我们只知道如何训练这种规模的网络。如果能够突破这个层数限制，理论上就可以做更多事情。但那时我们只能做到10层，这就是为什么我们强调人类在一瞬间能做到的事情。

这是演讲中的另一张幻灯片，上面写着我们的主要想法。你可能能够认出其中的一两个要点，特别是这里涉及了某种自回归的内容。那么它实际上在表达什么呢？这张幻灯片实际上在说，如果你有一个自回归模型，而且它能够很好地预测下一个token，那么它就能够获取、捕捉并掌握后续序列的正确分布。这在当时是一个相对较新的概念。虽然它并不是历史上第一个自回归神经网络，但我认为它是第一个让我们真正相信，只要训练得足够好，就能得到你想要的任何结果的自回归神经网络。在我们当时的案例中，是那个现在看来很普通，但在当时却极其大胆的翻译任务。

现在我要向你们展示一些你们中很多人可能从未见过的远古历史——LSTM。对于不熟悉的人来说，LSTM是在Transformer出现之前，深度学习研究人员所使用的工具。它基本上就是一个旋转90度的ResNet。这就是LSTM，它比ResNet更早出现。它有点像一个稍微复杂一点的ResNet。你可以看到那里有一个积分器，现在被称为残差流，但还包含了一些乘法运算。它稍微复杂一些，但那就是我们当时所做的。 它就是一个旋转90度的ResNet。