专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

“AI 已经具备超人智慧，具身机器人 100% 会兴起” Llama 3 作者北京演讲畅论 AI 前世今生

人工智能学家 · 公众号 · · 2024-06-15 17:44

正文

来源：AI 科技大本营（ID：rgznai100）

文：王启隆

在当前火热的 AI 浪潮中，开源模型已经从几年前的“无人问津”变成了如今竞争不断。前有出道即霸榜 Hugging Face 的国产最强 Qwen2 ，后有英伟达老黄今天刚放出来的“开源巨兽” Nemotron-4 340B ，之前说好要发布 400B 模型的“前任最强” Llama 3 ，现在如何了呢？

在北京智源大会 6 月 14 日下午的“大语言模型”分论坛上，Meta 研究科学家，Llama2、3 作者 Thomas Scialom 带来了一场关于大语言模型（LLMs）的过去、现在与未来的精彩演讲，以及随后的现场问答环节，涉及技术进展、应用前景及对行业未来的展望。

过去：OpenAI 和 DeepMind 螳螂捕蝉，Llama 黄雀在后。谁才能找到 Scaling Law 的秘密？
现在：随着 RLHF （基于人类反馈的强化学习）广泛使用，模型居然能在某些任务上超越人类，甚至展现出超人类的创造能力？
未来：智能体（Agent）概念深入人心，GPT-4o 为全球开发者指出了多模态应用的明路，那再下一步的 具身智能 会如何发展？

话不多说，以下为全文翻译：

过去

大家好，我是 Thomas Scialom，我的演讲将会大概讨论一下 LLMs 的过去、现在和未来。

首先，我们将聚焦于 LLMs 的近期历史，特别是 RLHF （Reinforcement Learning from Human Feedback，基于人类反馈的强化学习），以及我们对 Llama 的后训练（post-training）所做的工作，然后我会讲一讲自己对未来发展方向的一些看法。

但首先，我想暂停一下，思考一个问题：LLMs 发展的有多快？仅仅一年前，我们只有 Llama 2，而 ChatGPT 则是在一年半以前。科技发展速度如此之快，是前所未见的。这让我想到哲学家 Nick Bostrom（尼克·博斯特罗姆）说过的话：“一旦成功，就不再是 AI 了。”

我很喜欢这个定义。他这句话的意思是，我们可以 根据一个 AI 消除了多少科幻元素来衡量其影响力。而当 AI 不再仅仅是科幻的时候，AI 就成了。 我认为，在 ChatGPT 之后，历史上会出现一个转折点：AI 已经实现了，但它仍然在某种程度上保持着科幻色彩。

接下来进入正题，回顾一下大语言模型的历史。大语言模型其实是“基于 Transformer 架构的权重 ” + “我们以自监督方式训练的数据 ”，而训练它的主要目的是为了 预测下一个词 （next token prediction）。

因此，你可以通过增加权重或数据量来扩展模型。在 GPT-3 的论文中，OpenAI 实际上测量了规模的影响 - 此处的规模既包括扩大模型的规模，也包括通过增加批次大小或训练步数来扩大训练数据的规模。

他们发现，其中影响最大的是上图的这个蓝色区域 —— 模型的尺寸。于是他们全力以赴，将 GPT-3 的规模扩大了一个数量级，从不到十亿参数的 GPT-2 提升到了 1750 亿参数规模。

增加模型参数确实能带来直观的效果：在不改变其他条件，如保持同样的训练结果和数据集不变的情况下，仅通过增大模型规模，就能有效提升预测的准确性。这一点是我们对模型规模化共有的认知，通过这种方式，甚至可以在不进行任何精细化调整的情况下，获得一些专门模型的非 trivial（显著的）性能表现。因此，扩大模型权重成为了一种有效的方法。

但后来 DeepMind 出了一篇论文叫 Chinchilla ，他们指出了这个分析存在一个问题 —— OpenAI 忽略了在训练过程中调整学习率调度器的重要性，导致对于小型模型的正确训练安排未能得到充分考虑。也就是说，实验设计有缺陷。

这篇论文的引人注目之处在于，DeepMind 之前还发布过一个叫 Gopher 的模型，参数量高达 2000 亿，超过了 GPT-3，且训练消耗了大量计算资源。而通过对小规模案例的深入分析，DeepMind 提出：在相同计算成本下，最优策略应该是训练一个参数量更小的模型 —— Chinchilla（约 700 亿参数），但同时使用更多数据进行训练。

这意味着，原先的计算资源分配并未达到最佳平衡，而 Chinchilla 模型的提出及其外推结果显示，相较于之前的策略，这种权衡方式能够显著提升性能。总而言之，DeepMind 找到了一个新的平衡点，即在权重（模型大小）和数据量之间找到最优配置，以最大化模型的性能表现。

但故事还没结束：通过 Llama 项目，我们提倡重新考虑计算优化的问题。从下面这张图表中可以看到， 损失（loss）值随着参数增长在持续下降。

问题的核心在于，虽然我们能通过限定的计算资源来寻找并维持一个训练效果最优的平衡点，但这主要还是 为了在学术论文中展现最佳性能成果。

然而，当我们的目标是让更多人，比如 Meta 所展望的那样，让数十亿用户能够实际应用这些模型时， 推理阶段的效率与实用性 便显得同等重要了。

因此，我们可以在数据和权重这两个维度上进行扩展，但在训练阶段两者之间存在一个理想的平衡点；而在推理阶段，权重越大意味着需要的计算资源越多，但数据量却是一个可以灵活调整且不影响推理时间的维度。你可以使用无限量的数据来训练模型，这对推理时间没有丝毫影响。从这种意义上说，我们对模型进行了一定程度的“ 过度训练 ”——即我们本可以用同样的计算资源获得更好的训练结果，但这样的做法使得在推理阶段，我们的模型变得非常小巧且极为高效。

这就是 Llama 系列模型的理念，它使得 Raspberry Pi（树莓派）这样相对低端的设备上也有可能运行 GPT-3 级别的模型。现在我们有 Alpaca、vLlama 这样的一系列旧模型，这些模型累计下载量已超过 5000 万次。

记得在 Llama 1 发布时，人们甚至还要求我们公开权重文件 ↓

请记住： 一年以前还没有开源的基础模型，只有 GPT。 所以发展速度真的很快。

现在

我们后来很快推出了 Llama 2，它基本上在预训练规模上与 Llama 1 类似，只是增加了更多的 token，同时在我们开发的后训练阶段增加了指令跟随对齐，其中包括 SFT （Supervised Fine-Tuning, 监督微调）和 RLHF 。接下来我会具体介绍一下 Llama 2 —— 哦对了， 我们很快会发布一篇关于 Llama 3 的论文。

什么是 SFT？这是一种基本的方法，用以训练模型以对齐指令。我们会先给出一个提示，然后请注释者编写并创建它。为此，我们投入大量资金和人力，创作出各种有趣的提示，比如要求他们写一首诗，这首诗能帮助人记忆元素周期表的前 10 个元素，且每个元素都有对应的在线信息。

我不确定自己在这方面能比他们做得更好。实际上，设计这样的任务既困难又有挑战性。此外，注释者的任务还包括编写理想情况下期望模型回答的内容。然后我们会用这些数据微调我们的模型，并收集大量的指令。

另一种方法称为 人类偏好注释 （Human Preference Annotation），用于训练奖励模型，然后进行类似 RLHF 的操作。在这种方法中，注释者只需编写提示，我们利用模型生成两个答案 —— 注释者不需要编写答案，只需选择他更喜欢的答案。

显然，这比编写答案的成本低十倍，因为编写答案通常非常耗时。当我们开始这个项目时，我曾一度认为 SFT 才是黄金标准，但考虑到时间限制、截止日期和有限的预算，我们可能会在某个时候选择人类偏好注释这种方法。这是我最初的理解。

可以看到，通过训练不同规模的 奖励模型 （reward model）并使用越来越多的数据，我们不断提高了奖励模型的准确性。

那么，什么是奖励模型？它只是一个接受两钟输入——提示和答案，并给出标量分数的模型。然后我们可以判断哪个答案的分数更高。因此，奖励模型实际上做的就是分类任务。

当我们使用这个奖励模型时，我们可以利用它来改进我们的答案，并使用强化学习训练我们的模型。下面是我们开发的一个算法直观解释，称为 拒绝采样 （Rejection Sampling）。你可以提供一个提示并从一个到十个或更多样本中抽样。

你会看到，如果取奖励的中位数，它会是稳定的，没有变化，这就是图中的橙色线。但如果取奖励分数的最大值，也就是我们使用训练好的奖励模型对每个样本进行评分，那么每增加一个新样本，我们就有更多机会抽到比之前更高的奖励。所以最高奖励也是稳定的。

中间的橙色区域，其实旧是通过强化学习循环利用奖励分数改进的潜力。如果我们训练的模型在获得最高奖励的样本上，我们应该能从中位奖励推向下一个模型的最高奖励，从而提高平均奖励分数。

起初，我们借助高度专业化的科学模型，起点较低，但持续不断地取得了进步。显然，我们的模型在特定评判标准下表现更优，因为那些奖励模型仅根据我们自己的数据分布和协议进行训练，与 GPT-4 可能存在差异。我深有感触的是， 即使依据 GPT-4 的标准来评判，最终我们的模型也被认为明显优于 GPT-4，胜出比例超过 50%。

从另一个视角来看，我们每一轮都在尝试调整数据的分布形态。想象一下：我们手头有许多提示语句和对应样本，通过评估这些样本的得分，并分析它们的奖励分布情况。初期，样本的得分混杂不一，我们的目标是在每个迭代阶段减少低分样本的数量，并促使它们的得分向右偏移，即朝着满分靠近。我们正是通过多次迭代和优化循环达成了这一目标。

此外，我想分享一个有趣的现象：我们意外地发现了模型具备时间感知能力。仅需设定特定日期和知识截止点（即模型学习的终止时间），我们就能使模型按时间顺序动态调整答案内容，这点让人非常惊喜。

比方说，我告诉模型：“你的训练知识停留在了 1940 年以前。”，他就真的会装作不知道 1940 年之后的事情。如果再问它：“谁赢得了第二次世界大战？” 它会回答： “我不知道。因为我的知识停留在了 1940 年以前。”

同理，如果你现在问它：“地球是平的还是圆的？” 知识水平在 2023 年的模型会告诉你： “结合 GPS 等技术，我们现在可以确定地球是圆的……” 但如果把知识限制在公元 852 年以前，他就会回答： “我不太确定。有很多人怀疑地球是平的……”

未来

下面，我想解释 RLHF 背后的真正魔力是什么。

一开始，我认为超级智能微调在质量上会更胜一筹，毕竟人类的写作水平普遍高于机器。我们无法让模型接受那种针对人工编写的训练，那就像让机器去生成内容一样。

但现在，让我们思考这样一个问题： 写一首关于大语言模型的俳句。 给大家 5 秒钟时间思考，找出答案。

坦白说，我在这方面很糟糕，也许你们有人比我做得好。但对于人类来说，要给出一个创意答案其实非常难。而我们的模型瞬间就能生成这样的内容：

硅芯最深处

In silicon halls

语言巨兽栖于此

Linguistic leviathans dwell,

慧根悄然生

Wisdom's spawn they are.

这比大多数人类所能创作的都要出色。项目初期我们发现，只需极少量的监督微调数据，我们的模型就已经超越了普通标注员的平均水平。RLHF（基于人类反馈的强化学习）真正的魔力在于， 模型的能力已经达到了超人类的水平。

另外，这并不是因为我相比人工智能更不擅长写诗，而是我更擅长评判质量。我们多数人都不是毕加索那样的画家，但我们能够辨别佳作与拙作。我们具备区分好坏答案的能力，即便自己不一定能写出好的答案，而这正是 RLHF 的魔力所在。

因此，我认为 RLHF 实际上不仅仅关乎强化学习，甚至不仅仅是关于人类反馈。在我看来， 创造出超越人类水平的文字内容，关键在于人和 AI 的默契配合。 未来我们可能会探索新招数，以不同方式让人机协作更紧密，但这都是为了训练出更高质量的下一代模型服务。其实我们已经挺进这个阶段了，现在提到“多模态输入输出”，GPT-4.0 已经给我们指了条明路，趋势很明显。

如今，从某种程度上说，我们已经解决了语言建模这一任务，尽管我们仍可能观察到一些进步 —— 请别误会，我并不是说一切问题都已彻底解决，但我们的技术水平确已达到运作良好的阶段，这有赖于预训练与后训练的结合。接下来的进化，就是要整合更多样化的内容，无论任何形式的信息，不论是图片、声音还是视频，都能自如处理，我们正逐步向这个目标靠近。

同时，关于“ 智能体”（Agent） 这个概念的研究也火起来了。我的想法是，智能体可以构成一个系统，包含规划模块、记忆模块及围绕这些核心功能的协调机制，这一切的实现得益于前代语言建模任务的攻克，以及多模态输入输出技术的融合。因此，智能体研究正在层层递进，一步步解锁新一代技术，不再是简单地生成文字、根据文字反馈得分了。

模型过去仅限于文本交流，但有了智能体，它便能在数字世界中立足，能执行代码并观测环境反馈。一旦代码出错或出现漏洞，模型能够识别并作出响应。当模型缺乏信息时，它能上网搜索，获取信息并自我完善，自我修正。有时模型认为某事件发生，上网核验后会发现自己“哦，我错了”或“我是对的”，据此调整自身权重。因此，语言模型不再是封闭运作。

未来，机器人将会兴起，我们正日益频繁地目睹相关成果。Hugging Face 刚发布了针对此领域的开源库，且相关成本正逐年呈指数级降低 —— 成本曾是主要的限制因素。随后，自然而然的一步是 将我们的智能体实体化，使其融入物理世界，提供更为坚实的实践基础。

是的，这正是我认为的前进方向，这趋势很明显，就跟科技发展的必然规律似的，算得上是最容易预测的未来趋势之一。而那些在十倍、百倍增强的计算能力上训练的模型，将会取得更高水平的成果， 这是一个明确的趋势，如同人口统计学规律一样，是我们能够最为确定的发展法则之一。

然而，我认为这十年的人工智能教会了我们 —— 从 AlphaGo 的惊艳亮相，到 ImageNet 竞赛催化下模型从识别猫狗这类基础任务，迅速跃升至攻克围棋难关，再到如今的模型已具备接近乃至超越人类的理解力，在特定领域内生成文字 —— 这些模型在数学难题和逻辑推理上接连取得突破，也许还未达到世界上最佳数学专家的水平，但 远超我们大多数人所能及。

这一路上，我们有很多突破，无论是预期还是意外的。随着越来越多的新人加入我们的这个新兴领域（ 对，这个领域还很年轻，事实上，全世界所有历史上从事过 AI 研究的研究人员现在都还在世 ），可以预见，未来还将迎来更多意想不到的创新。至于那会是什么？坦白说，我也不得而知。

或许，通用人工智能（AGI）会是我们这一代的哥白尼革命。就像当初人类发现地球其实没什么特别的，只是一个围绕普通恒星旋转的普通行星，位于一个普通星系中 —— 未来的人可能也会觉得，智能不算什么疯狂的革命，就是一堆矩阵运算罢了。

问与答

提问者： 我想从商业角度提问。你如何看待 Llama 未来五到十年的发展？你们会做 AI 机器人吗？或者是有更大的野心？

Thomas： 这确实是个好问题。我或许可以预测一年左右的发展，但预测未来十年就太难了。就现在来说， Meta 对 Llama 的愿景是朝着 AGI 发展 ，这是我们主要的投入方向。

我们目前基于 Llama 推出了一些项目，其中一个是 Meta Live ，你可以把它视为免费的 ChatGPT，它目前已在美国的 Messenger、Instagram 和 WhatsApp 上推出，很快将扩展到其他国家。

此外，我们已经开始将其应用到像 Ray-Ban（一个太阳镜品牌）这样的产品上，我认为这种设备未来有可能部分取代手机，它是 一种内置摄像头、声音传感器的眼镜， 你可以通过它们与助手实时交流，助手能看到你所看见的，听到你所说的，同时利用其强大的智能体能力，拥有计算和音频信息数据，让你拥有一个口袋里/眼镜上的“贾维斯”

“AI 已经具备超人智慧，具身机器人 100% 会兴起” Llama 3 作者北京演讲畅论 AI 前世今生

正文

请到「今天看啥」查看全文