专栏名称: AI前线

InfoQ十年沉淀，为千万技术人打造的专属AI公众号。追踪技术新趋势，跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。

赶紧放弃强化学习？！Meta 首席 AI 科学家杨立昆喊话：当前推理方式会“作弊”，卷大模型没有意义！

AI前线 · 公众号 · AI · 2025-02-15 13:30

正文

编译 | 傅宇琪

“别说是试图重现人类的智慧，我们甚至连猫的智慧都无法重现！”现有的大语言模型面临着这样的困境：它们基于深度学习架构，通过在大规模数据上进行预训练、调整参数，看似构建起了对世界的“理解”，实际上却仍然缺乏对现实认知的“基本常识”。那么，怎么样才能构建出真正会“思考”的模型？从穷尽模拟到预测关键关系，推理方式的改变会是 AI 的下一次革命吗？

近日，在巴黎举办的 AI Action Summit 2025 上，Meta 首席 AI 科学家杨立昆（Yann LeCun）提出了他认为的人工智能领域一次根本性转向——突破大语言模型的暴力计算范式。未来的 AI 不应仅停留在"预测下一个词元"的层面，而应基于能够推理、规划和适应的世界模型。基于该演讲视频，InfoQ 进行了部分增删。

核心观点如下：

AI 的未来不仅是数据处理，更是对世界的深度理解。
仅仅通过文本数据，我们永远无法让 AI 达到人类的智能水平。
高级机器智能需要满足：能从感官输入中学习、具有持久记忆、能够规划和推理、可控、在设计上保证安全。
与其坚持做那些无法预测的事物的概率预测，不如选择不预测它们。
放弃生成式模型，放弃概率模型，放弃对比方法，放弃强化学习。

现有 AI 的缺陷在哪？

我们需要具备人类水平的 AI 担任智能助手。这不仅仅是一个有趣的科学问题，它也满足了产品需求。未来，我们将佩戴如智能眼镜等类型的设备，并且在这些智能设备中，我们将能随时访问 AI 助手，与它们进行互动，不论是通过声音、视觉，还是其他别的方式。我们需要这些系统具备人类水平的智能，因为我们熟悉与人类互动的方式，所以期望与之交互的系统也具备类似的智能形式。这些无处不在的助手将成为我们与数字世界互动的媒介。因此，我们需要它们能够便于使用，特别是对于那些不一定熟悉技术的群体。

问题在于，当前的机器学习技术还远远不够，我们没有足够的技术来构建具备相同学习能力、常识和对物理世界理解的机器。动物和人类拥有“常识”，能够非常快速地学习新任务、理解世界的运作方式，并具备推理和计划的能力，行为由目标驱动。而 目前的 AI 系统，并不具备我们所需要的特性 。原因在于，这些系统基本上是通过自回归方式逐个生成 token 来构建输出，依赖一个预测器在 token 序列上重复操作，通过查看前面的 token 窗口来预测下一个 token。在训练过程中，系统被输入一个序列并复现该序列，但由于因果结构（Causal Architecture）的限制，系统只能依赖前一个 token 来预测下一个 token，无法通过特定输入预测自身。

人们通常把这种方式称为 Generative Pre-trained Transformer（GPT），它很高效，但存在一个问题：它是发散的。每生成一个 token，都有可能生成一个不在合理答案范围内的 token，从而将生成结果推向更不合理的方向。如果发生这种情况，之后就无法修正。而如果假设生成错误 token 的概率是存在的，并且假设这些错误是独立的（当然它们并非独立），那么就会导致指数级的发散，这也就是为什么这些模型会出现“幻觉”的原因。

别说试图重现人类的智慧，我们甚至连猫的智慧都无法重现。 猫理解物理世界，一些家猫甚至知道如何开门、如何拧水龙头。一个十岁的孩子可以在第一次要求下，轻松收拾好餐桌并把碗筷放进洗碗机里；一个十七岁的孩子经过二十小时的练习就能学会开车。但尽管我们已经有了成千上万小时的监督训练数据，我们依然没有训练出像猫一样灵活行动的机器人，没有能够收拾餐桌的家庭机器人，也没有能够实现完全自动驾驶的汽车。这意味着，我们仍然缺少一些非常重要的东西。

然而，我们的系统能够通过司法考试、解数学题、证明定理。这就导致我们一直面临一个悖论，叫做“莫拉维克悖论（Moravec’s Paradox）”。我们认为那些人类和动物能轻松完成的事情很简单，实际上它们对计算机来说非常复杂；而那些对人类困难的任务，比如操控和生成语言、下棋、打扑克、创作诗歌等等，对计算机来说相对简单。

或许原因就在于一个非常简单的计算。如今，典型的大语言模型通常是在约 30 万亿个 token（即 3*10^13 个 token）上进行训练的，每个 token 大约是三个字节。所以，数据量大约是 10^14 个字节。如果我们每个人去阅读这些材料，几乎需要五十万年才能完成。事实上，这些数据几乎涵盖了互联网上所有公开可用的文本。

现在，考虑一个 4 岁的人类小孩，他在世界上醒来的总时长为 16,000 小时（大约仅相当于 YouTube 平台上 30 分钟内视频的上传量）。人类有 200 万个视神经纤维，每根纤维传输大约 1 字节 / 秒，数据量大约是 10^14 字节。也就是说， 一个四岁的孩子在视觉感知中接收到的总数据量，和最大的大模型差不多。

这说明了很多问题：我们永远无法仅仅通过文本数据让 AI 达到人类的智能水平。尽管有些人可能出于某些利益考虑告诉我们，明年就能实现博士级别的智能，但这根本不可能发生。我们可能会在某些子领域或者某些问题上，例如下棋，达到某种程度的博士级别智能，但前提是我们为此专门训练一个系统。

视觉错觉（Visual Illusions）这类问题中存在许多类似的情况：当你向大语言模型提出一个问题时，如果这个问题是标准的谜题，系统会在几秒钟内给出答案。但如果你稍微改变一下问题的表述，系统依然会输出之前的答案，因为它并没有真正理解该问题。

那么，人类婴儿是如何学习世界运作的呢？婴儿在生命的最初几个月内，就积累了大量关于世界的背景知识，比如物体恒常性、坚固性、刚性、自然物体类别等概念。在婴儿理解语言之前，他们已经能够区分桌子和椅子的不同，这种能力是自然而然发展的。四个月大之前，婴儿基本上无法对世界产生任何影响，但之后通过与外界的互动，他们的理解逐渐深化，大约在九个月大的时候就能够理解一些直观的物理概念，比如重力、惯性等。需要的互动量并不大，但仍然是非常重要的。所以， 如果我们想要开发一个能够最终达到人类智能水平的人工智能系统，这个过程可能会需要很长时间。

如何实现“高级人工智能”

Meta 不喜欢使用“通用人工智能（AGI）”这个术语，因为人类级别的智能实际上是相当专业化的，我们称其为“高级机器智能（Advanced Machine Intelligence）”。

那么，AMI 应该是什么样的呢？是能从感官输入中学习世界模型的系统，比如能通过视频学习直观物理，是具有持久记忆、能够规划行动的系统，是能够进行推理的系统，是可控、且在设计上保证安全的系统，而不是像大语言模型那样通过微调来实现安全。

我所知道的构建此类系统的唯一方法是改变当前 AI 系统执行推理的方式。

当前大模型如何推理

当前的大语言模型执行推理的方式是通过固定层数的神经网络层进行处理，生成一个 token，将该 token 注入 input 中，再次通过固定层数的网络进行处理。问题在于，如果你问一个或简单或复杂的问题，并要求系统以“是”或“否”来回答，例如“22 是否等于 4，”或者“P 是否等于 NP”，系统将花费相同的计算量来回答这两个问题。因此， 某些人可能会通过一种技巧来“作弊”，要求系统“解释推理过程”，即让系统生成更多的 token，从而花费更多的计算量来回答问题。

而在经典 AI、统计学、结构预测等不同领域，推理的方式是通过一个函数来衡量观测值与拟输出之间是否兼容，寻找一个输出值，将不兼容性度最小化，我们将这个函数称为“能量函数（Energy Function）”，如下图右侧红色方框所示，这样系统就会通过优化来进行推理。如果推理问题更复杂，系统就会花更多时间来进行推理，而对于简单的问题，它会花费较少的时间。

经典 AI 中，一切都围绕推理和搜索，几乎所有计算问题都可以归结为优化问题。这种方法在概率建模中也非常经典，比如概率图模型等。实际上，这种推理方式很接近于心理学家所称的“系统二（理智）”思维，它是指在采取某个或系列行动之前会先思考该如何做。而“系统一（直觉）”思维则是你可以在不思考的情况下完成某件事，将其变成潜意识行为， 大语言模型就属于“系统一”思维。

解释这一过程的理论框架是能量基模型（Energy-Based Models），你可以通过一个能量函数来捕捉变量之间的依赖关系。比如，这个能量函数在 X 和 Y 兼容时取较低的值，而在 X 和 Y 不兼容时取较大的值。你并不是直接从 X 计算 Y，而是利用一个能量函数来衡量不兼容度，然后在给定 X 的情况下，找到一个能量值低的 Y。

那么，这种架构应该如何构建？它与思维或规划的关系是怎样的？首先，你从外部世界获取观测数据，经过感知模块处理，生成关于世界状态的估计。然而，世界的状态并不是完全可观察的，因此你可能需要将感知得到的信息与内存中的内容相结合，内存中保存着你目前未能感知到的世界状态。这两者的结合将进入一个世界模型。

什么是世界模型呢？世界模型是在一个抽象的表示空间中给定当前的世界状态估计（Estimate of the State of the World），并且给定你想要采取的动作序列（Action Sequence），世界模型会预测执行这些动作后世界状态的变化。例如，如果我告诉你想象一个立方体漂浮在空中，接着我让它绕垂直轴旋转 90 度，那么你可以很容易地在脑中形成这个立方体旋转的模型。

有了这样一个世界模型的话，我们就可以将其输入到目标函数中，目标函数是衡量预测的最终状态是否满足我们设定目标的函数，类似一个成本函数。我们还可以设置一些“护栏”目标（Guardrail Objectives），把它们看作是系统必须满足的约束条件，以保证系统的安全行为。系统的运行方式是通过优化来进行的，寻找一个能够最小化任务目标和护栏目标的动作序列来执行。我们这里讨论的并不是学习，而是推理。这种方法可以确保系统的安全性，因为护栏目标确保了安全性，由硬编码实现，你无法通过给系统提供一个提示，使它逃避护栏目标。

现在，你有了一个世界模型，执行第一动作后预测下一个状态、第二个动作预测第二个状态。你可以在整个轨迹中设置护栏、成本和任务目标。如果世界并非完全确定和可预测，世界模型可能需要包含潜在变量（Latent Variable），以考虑我们无法观察到的世界中的各种因素，这些因素使预测变得不完全精确，最终导致推理的不确定性。

我们需要一个能够进行层次化规划（Hierarchical Planning）的系统，这样的系统可能会有多个抽象层次。具体来说，在低层次上，我们规划低级动作，比如肌肉控制；而在高层次上，我们能够规划抽象的宏观动作，世界模型在较长时间步长下进行预测，但其表示空间更为抽象，因此包含的细节较少。

举个例子，如果我在纽约大学的办公室里决定去巴黎，我可以将这个任务分解成两个子任务：去机场和坐飞机。现在，我有了一个子目标——去机场。去机场的过程包括走到街上、打车。那么，如何走到街上呢？我需要走到电梯、按下按钮、乘电梯下楼、走出大楼。如何去电梯呢？我需要从椅子上站起来、拿起包、开门、走到电梯、避开所有障碍物，直到某个时刻，我不再需要规划，直接开始行动。

我们总是在做这种类型的层次化规划，但实际上我们完全不知道如何让机器自主学会实现这一点。几乎每个机器人都在做层次化规划，但每一层次的表示都是手工设计的。我们需要的是训练一种我刚才描述的那种架构，它能够学习抽象的表示，不仅是世界状态的表示，还能够预测未来事件，以及在不同抽象层次下的抽象动作。这样，我们就能进行这种层次化规划。动物能做到这一点，人类也做得非常好，但我们今天的系统完全无法做到这一点。

生成架构对视频生成毫无意义

大约三年前，我写了一篇长文，解释了我认为人工智能研究应该关注的方向。这篇文章写于整个 GPT 热潮之前， 我的看法并没有改变，ChatGPT 并没有改变什么。 我们在那之前就已经在做大语言模型（LLM）的工作，所以我们其实早就预见到将会发生什么。那篇论文的标题是《通向自主机器智能的道路》，我们现在称其为“高级机器智能”，因为“自主”这个词会让人感到害怕。

那么，一个非常自然的想法是，我们能通过视频训练自回归生成式架构吗？比如将我们用来训练自然语言系统的相同过程应用到视频上，比如你给系统展示一段视频片段，并要求它预测接下来的内容，那么系统应该能够理解世界的基本结构。训练它做出这种预测可能会使系统理解世界的内在结构。这个方法在文本中是有效的，因为预测单词是相对简单的。单词的数量有限，只有有限数量的词可能被标记。因此，虽然我们不能精确预测某个单词会跟在另一个单词后面，或者文本中缺失的是哪个单词，但我们可以为字典中的每个单词生成一个概率分布或得分。

然而， 我们不能像处理单词那样处理图像或视频帧 ，目前没有好的方法来表示视频帧的分布，通常会遇到数学不可处理性的问题。你可以尝试通过统计学，或者物理学家发明的数学方法（比如贝叶斯推理等）来绕过这个问题，但实际上， 最好是完全放弃做概率建模的想法 ，直接说，我只想学习一个能量函数，它告诉我输出与输入是否兼容，而我不关心这个能量函数是不是某个分布的负对数。

我们需要这样做的原因，当然是因为我们无法精确预测世界上将会发生什么。如果我们训练一个系统仅仅去预测一个帧，它将无法做得很好。因此，解决这个问题的方法是一种新的架构，我称之为“联合嵌入预测架构”（Joint Embedding Predictive Architecture, JEPA）， 因为生成架构对于视频生成来说根本行不通。

改变模型的预测目标

你可能见过一些视频生成系统，它们生成的内容非常惊人，但背后有很多“技巧”，并且它们并不真正理解物理规律，只需要能预测出漂亮的图像。而在 JEPA 中，你将观察到的内容和输出（即下一个观察）一起输入到编码器中，这样 预测的目标就不再是预测像素，而是预测视频或任何内容中发生的事情的抽象表示。

让我们来比较这两种架构。左边是生成架构，你将观测数据 X 通过编码器输入，然后可能通过预测器或解码器生成预测结果 Y，这是一种直接的预测方法。而在右边是 JEPA 架构，你将 X 和 Y 都输入到编码器中，编码器可以相同也可以不同，然后从 X 的表示中预测 Y 的表示，这个表示位于一个抽象空间中。

这种方法将导致系统学习一个编码器，去除所有那些无法预测的内容。比如，如果我现在架起相机拍这间屋子的左侧，再将相机移到右侧，没有任何视频预测系统或者人类，能够预测每个观众的样子，或者预测墙壁上的纹理、硬木地板上的木纹。我们有很多事情是无法预测的。所以， 与其坚持做那些无法预测的事物的概率预测，不如选择不预测它们， 而是学习一种表示方式，将所有这些细节基本上消除，从而使得预测变得更加简单。它可能仍然需要是非确定性的，但至少我们简化了问题。

JEPA 架构有不同的变体，其中一些包含潜在变量，另一些则是基于动作条件的。我将专注于讲解基于动作条件的变体，因为它们很有趣，实际上是世界模型。

在这个架构中，你有一个编码器，X 是当前世界的状态或当前观测值。然后，你将一个动作输入到预测器中，这个动作是你想象的执行动作，预测器会预测下一个世界状态的表示，这就是你如何进行规划的方式。所以，我们需要训练这些系统，并且需要弄清楚如何训练这些 JEPA 架构。

这实际上并不完全是件简单的事，因为你需要训练 JEPA 架构中的成本函数，它衡量的是 Y 的表示和预测的 Y 表示之间的差异，即衡量它们的发散度。我们希望这个差异在训练数据上是很小的，但在训练集之外是比较大的。这就是所说的能量函数，它具有等能量等高线，我们需要确保能量在数据流形之外是很高的。

有两类方法来处理这个问题。一类方法叫做对比方法（Contrastive Method），它的做法是先将图中深蓝色的数据点，推动它们的能量下降，然后生成一些绿色闪烁的点，再推动它们的能量上升。对比方法的问题在于，当空间的维度很高时，它们无法很好地扩展。如果你的 Y 空间有太多维度，你需要在许多不同的地方提高能量，这样就不太好用了。你需要大量的对比样本才能让这种方法奏效。另一类是正则化方法（Regularized Method），这种方法通过在能量上施加正则化来最小化能够接受低能量的空间体积。

这就导致了两种不同类型的学习过程，一种是对比学习过程，你需要生成那些对比点，然后将它们的能量推高到某个损失函数（Loss Function）。而另一种是使用正则化方法，它将“收缩”数据流形，确保流形外的能量较高。

有很多技术可以用来实现这一点。大约五六年前，我们让系统学习图像的表示。取一张图像，对其进行某种方式的腐蚀或转换，然后将原始图像和腐蚀后的版本输入到相同的编码器中，并训练一个预测器，从腐蚀后的图像中预测原始图像的表示。当系统训练完成后，去掉预测器，使用编码器输出的表示作为输入，提供给一个简单的线性分类器，或者类似的监督训练方法，来验证学习到的表示是否良好。这个想法非常古老，可以追溯到 1990 年代，被称为 SII 网络（Siamese Networks）。而一些关于 JEPA 的最新研究则是在此基础上增加了预测器，例如，谷歌提出的 SimCLR。

然而，这里维度是受到限制的。我们可以用正则化方法训练 JEPA，工作方式如下：让编码器基本上忽略输入，产生一个常量输出，这样预测误差始终为零。你还需要防止系统发生崩溃，实现这一目标的间接方式是保持从编码器输出的信息内容。你将有一个训练目标函数，它是负信息内容（因为在机器学习中通常是最小化而不是最大化）。一种做法是，将来自编码器的表示向量在一个样本批次中进行处理，确保它们包含有意义的信息。如何做到呢？你可以取出表示向量的矩阵，并计算该矩阵与其转置矩阵的乘积，得到一个协方差矩阵，然后尝试使这个协方差矩阵接近单位矩阵。

一个坏消息是， 这种方法实际上是通过对变量之间依赖关系做出非常强的假设来近似信息内容。 事实上，这只是信息内容的上界，我们希望实际的信息内容（即低于上界的部分）会符合这个假设。从理论上讲，这种方法稍显不规则，但它确实有效。所以，尽管存在一些理论上的问题，但它还是能起到作用。

你从编码器中得到一个矩阵，其中包含多个样本，每个向量是一个独立的变量。我们要做的是让每个变量都具有信息性。因此，我们会尝试防止变量的方差变为零，强制它为 1，然后我们会对变量之间进行解相关操作。这意味着我们要计算这个矩阵的协方差矩阵，将矩阵与其转置相乘，然后尽量让结果的协方差矩阵接近单位矩阵。还有其他方法试图让样本正交，而不是让变量正交，这些方法属于对比样本的方法。但是，它们在高维度时不起作用，而且需要较大的批量数据。

还有其他的一些方法，比如 VAG（方差不变协方差正则化），它有特定的损失函数来处理协方差矩阵。MCR 平方（MCR²），来源于神经科学。这是一类方法，我非常喜欢这些方法，并且认为它们效果非常好，我预计未来会看到更多类似的方法。

另外还有一类方法，近年来在某种程度上更加成功，这些方法基于蒸馏（distillation）。

同样的，你有两个编码器，它们仍然是 JEPA 架构。两个编码器共享相同的权重，但并非完全相同。右边的编码器会得到通过指数移动平均得到的左边编码器权重的一个版本。简单来说，你强制右边的编码器更新权重的速度比左边的编码器慢，出于某种原因，这可以防止系统崩溃。

对于蒸馏，现在有一些理论研究。实际上，这项工作刚刚完成，它为什么会有效的原因仍然有些神秘。 老实说，我对这种方法有点感到不太舒服，但我们必须接受它实际上是有效的 。 真正的工程师在构建东西时未必知道为什么它能工作，但他们能够做出有效的成果，那才是好工程师 。这种方法不需要负样本，它们的系统可以学习通用特征，之后你可以将这些特征应用到任何下游任务中，而这些特征的效果非常好。所以，这种方法非常有效。

实际效果如何？

最近，我们开发了一个适用于视频的版本——V-JEPA。这个系统从视频中获取 16 帧的片段，然后对这些 16 帧进行腐蚀，通过遮盖其中的一部分，再将其输入到相同的编码器中。接着，训练一个预测器，从部分遮盖或腐蚀的表示中预测完整视频的表示。它的效果非常好，因为你可以学习到一些特征，然后将这些特征输入到一个系统中，这个系统能够对视频中的动作进行分类，并且使用这些方法，你能获得非常好的结果。

这里有一个非常有趣的发现，如果你展示给这个系统一些发生了非常奇怪的事情的视频，比如一个物体突然消失或形状发生变化，这个系统能够告诉你：“我的预测误差飙升了，窗格中发生了某些奇怪的事情。”也就是说，尽管这个系统很简单，但它已经学会了一定程度的常识。它能够告诉你，世界上是否发生了某些非常奇怪的事情。

最新的工作是基于 Dino 的世界模型。这是使用 Dino 特征，并在其上训练一个预测器，使其成为一个基于动作条件的世界模型，从而可以用于规划。基本的做法是，训练一个预测器，使用通过 Dino 编码器处理后的世界图像，并结合机器人可能采取的动作。然后，你通过这个系统预测接下来会发生什么，即根据所采取的动作预测接下来的图像或视频帧。

这个规划过程非常简单。你首先观察初始状态，将其输入到 Dino 编码器中，然后通过你的世界模型进行多步预测，想象执行一系列动作。接着，你有一个目标状态，例如通过目标图像来表示，运行到编码器中，然后计算预测状态和目标图像所代表的状态之间在状态空间中的距离。规划的过程实际上就是通过优化找到一系列动作，并最小化距离。

至于推理时的计算，大家似乎很兴奋地谈论测试时间计算之类的内容，好像这是一项新技术，但其实这在最优控制中是非常经典的，叫做模型预测控制（Model Predictive Control），已经存在了很长时间了。最早关于使用这种类型模型进行规划的论文出现在 60 年代初，而那些真正学习模型的工作则比较晚，更多来自于 70 年代，很多在最优控制领域的人应该知道这个方法。

假设你有一个“T”形物体，需要将其推到预定的位置。你会提供该目标位置的图像，并将图像经过编码器，得到表示空间中的目标状态。上方显示的是在真实世界中执行一系列规划好的动作后实际发生的情况，而下方显示的是系统内部对该动作序列的预测——经过一个解码器生成了内部状态的图像表示（注意，解码器是单独训练的，并非直接进行图像生成）。

再看一个更有趣的例子：这里初始状态是一堆随机散落在地板上的蓝色筹码，而目标状态显示在上方。你看到的是规划后生成的一系列动作，以及机器人执行这些动作的过程。这个环境的动力学相当复杂，因为这些蓝色筹码之间可以相互作用，产生多种交互效果。系统仅通过观察大量的状态 - 动作 - 下一个状态的转变数据，就学会了这种规律。这种方法在机械臂操作、迷宫导航、以及推动物体等多种情境下均能取得良好的效果。

我们将类似的想法应用于导航任务。基本上，这是视频序列的应用，每一帧都是在特定时刻捕获的，机器人通过里程计知道自己移动了多远，从而获得下一帧。你训练一个系统，预测如果执行某个特定的运动动作，世界会是什么样子。接下来，你可以告诉系统，比如“导航到那个点”，系统就会执行，并在过程中避开障碍物。

AI 的未来：推翻传统逻辑

我有一些建议： 首先，放弃生成模型。 虽然，这是目前大家都在研究的最流行的方法，但请停止继续在这个方向上工作，转而研究 JEA； 第二，放弃概率模型 ，转向 EBM； 第三，放弃对比方法 ，转向正则化方法； 最后，放弃强化学习 ，这是我长期以来一直在强调的，因为它效率低下。你只有在模型不准确或代价函数不准确时，才需要使用强化学习。

如果你对人类水平的人工智能感兴趣，我建议你不要研究大语言模型。 事实上，如果你在学术界，最好不要从事大语言模型研究，因为你会和成百上千、拥有数万 GPU 的研究者竞争，但根本没有什么新的东西。

去做点其他的事情吧，世界上还有许多问题需要解决，例如如何使用大规模数据训练这些模型，如何改进规划算法，现有方法仍然不够高效。如果你对优化、应用数学有兴趣，这是一个很好的方向。还有像是带有不确定性的规划、层次化规划、学习代价模型以及探索问题等，这些都是值得深入研究的领域。

未来，我们将拥有普遍的虚拟助手，它们将随时陪伴我们，调解我们与数字世界的所有互动，我们无法承受这些系统仅由少数几家公司来提供。这意味着， 构建这些系统的模型需要是开源的，并且广泛可用。 虽然这些系统的训练成本昂贵，但一旦有了基础模型，为特定应用进行微调是相对便宜的，很多人都能负担得起。因此，这些 AI 平台需要是共享的，它们需要支持所有世界语言，理解全球的文化、价值观和兴趣点。

赶紧放弃强化学习？！Meta 首席 AI 科学家杨立昆喊话：当前推理方式会“作弊”，卷大模型没有意义！

正文

请到「今天看啥」查看全文