Sora不是“世界模型”？来听图灵奖大神LeCun硬核解读什么才是“世界模型”！

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-03-12 08:58

正文

说到最近大火的“世界模型”，要从OpenAI的Sora炸街说起。Sora发布后，Nvidia的高级研发总监，也是OpenAI曾经的第一个实习生，现在的业界大神Jim Fan，兴奋地说Sora可以称之为“世界模型”。

然而AI界的绝对大神，图灵奖获得者，长期研究“世界模型”的学术权威Yann LeCun，却第一时间站出来反驳：

众所周知的是，LeCun一直唱衰生成式模型（比如最火的ChatGPT），认为它并不是真正的理解物理世界。正好LeCun领军的Meta AI也在最近推出了代表LeCun世界模型理念的V-JEPA，V-JEPA也是采用视频为训练数据，但和Sora不同的是使用了自监督学习的模式。

这里面看起来信息量不小： 自监督学习、生成式的自回归模型、世界模型，这些概念有什么含义？相互之间的关系又是如何呢？ 以下整理了LeCun于2023年在德国巴伐利亚科学院的部分演讲内容，大佬从自监督学习，讲到自回归模型及其局限性，最后阐述了世界模型的含义，以及自己所主张的世界模型的结构，为了便于更多读者阅读，太过学术和晦涩的部分进行了删节。截图都是演讲现场的英文PPT，比较硬核。

什么是自监督学习？

我们在过去几年中在人工智能和机器学习方面取得的进展，是由一组我们称之为 自监督学习（Self-supervised learning） 的技术所致，我相信在座的许多人都听说过。自监督学习允许系统在不需要标记数据的情况下进行训练，也不需要人工干预来生成数据。今天所有的自然语言处理系统，无论是我们玩的LLMs还是其他类型的系统，都是这样训练的。

你拿到一段文本，然后去掉其中的一些单词。你把它们遮盖掉。你用一个空标记（Mask）替换它们。你破坏了输入，然后你把它放在一个大型神经网络的输入端。你训练这个非常大的神经网络，通常是一个Transformer架构，来预测缺失的单词。在这个过程中，系统必须提取包含语义、句法、语法或其他所有内容的文本表示。这些不是输入的单词，它们被称为 token（标记） ，实际上是子词单元。在大多数语言中，单词有前缀、词根和后缀。你需要将它们分开，这样这些系统才能正常工作，否则，词典会变得庞大，所以必须将单词分解为token。然后训练这个系统，这就是所谓的 BERT模型 ，BERT是非常成功的模型，它完全是自监督的。它不需要除了文本之外的任何其他数据。 一旦你预训练了这个系统，你就可以使用系统产生的内部表示作为后续任务的输入，比如翻译、文本分类、摘要等等 。

所以这就是自监督学习的一般思想——填空。 有一大块数据，以某种方式破坏它，然后训练一些大型神经网络来填补空白，或者恢复原始数据。 我先不详细介绍技术细节，留到后面。

什么是自回归模型？

那些大型语言模型（LLM），你可以与之交谈的那些大模型，它们是如何工作的呢？它们是 自回归（Auto- regressive） 的，同时它们是我之前提到的自监督学习的。你拿一段文本，删除其中的一些单词，然后训练系统预测这些单词。 但是这是一种特殊情况，你只训练系统预测最后一个单词 。自回归模型中，你拿一段长文本，删除最后一个单词，然后训练这个巨大的神经网络来预测最后一个单词。如果你以这种方式训练系统，你可以进行自回归预测，也就是给定一段文本，预测最后一个单词或下一个单词，然后将其注入输入，预测下一个单词，然后将其转移到输入中，生成第三个单词，以此类推，这就是自回归预测。

它的工作原理真是太神奇了。这些系统的性能非常出色，我们都为之惊讶。但是它们确实会犯一些非常愚蠢的错误。它们并不真正了解世界。它们被训练成产生最可能的单词序列，以跟随特定的点，然后它们被微调以在特定类型的问题上表现良好。但是它们会犯事实错误、逻辑错误。它们是不一致的。它们实际上没有推理能力。很容易让它们产生有毒内容。它们对基本现实的了解非常有限，因为它们只是从文本中进行训练。它们没有常识，它们不能计划自己的回答。

它们真的不是那么好，因为它们不了解世界。 它们只是操纵语言。因为它们流利地操纵语言，我们被欺骗以为它们是聪明的，但实际上它们不是 。它们在某些方面是聪明的，但在我们认为的人类智能方面却不是。

这些东西与人类智能相去甚远。它们看起来像是有智能，因为它们训练了如此多的数据，积累了大量的背景知识，可以近似地复述。所以每当它们看起来聪明时，通常是因为它们可以以近似的方式进行信息检索，看起来合理。但是它们不可能真正理解世界是如何运作的，因为它们唯一的训练数据是文本。

为什么需要世界模型？

而人类知识的大部分（这可能会让你感到惊讶）与语言无关，而是与我们每天对世界的经验有关，比如物理学。

另一个局限性是它们无法进行规划 。它们不会计划自己的回答，它们只是一个接一个地产生标记。无论它们产生什么标记，都将决定它们产生下一个标记。因为它是 自回归 的，系统基本上是一个指数级发散的过程。如果系统犯了一个错误，使其偏离了正确的答案集，它就无法恢复。 所以我认为，这种自回归预测的整个架构本质上是有缺陷的。我的预测是，在未来几年内，没有理智的人会使用自回归模型。 每个人都在努力寻找更好的东西，因为这些东西有很大的缺陷。

未来的AI系统不会使用这种架构，它们不会是自回归的LLM，因为自回归的LLM很糟糕：没有推理，没有规划。一个LLM（自回归的LLM）产生一个标记所需的计算量是恒定的。每产生一个标记，都需要恒定的计算量。所以系统没有可能在说话之前长时间思考某件事。

所以它不会像人类那样学习世界是如何运作的，它们不可能接近人类智能。我们仍然缺少一些重大的突破。但是毫无疑问，最终，机器将在所有领域超越人类智能。这基本上是毫无疑问的。可能需要几十年的时间，但是毫无疑问，它将会发生。

世界模型应该是什么样的？

我认为， AI面临的最大挑战是学习世界的表示和预测模型 ，我马上会告诉你为什么。这就是监督学习所解决的问题。说到推理，如果你们中的一些人了解丹尼尔·卡内曼的思考快与慢，系统1与系统2，潜意识和有意识，那么你们就知道我们目前的AI系统只能做到系统1，而无法做到系统2。我们需要重视能够进行丹尼尔·卡内曼所称的系统2类型推理的AI系统。他是一位诺贝尔奖得主，虽然他获得的是诺贝尔经济学奖，但他是一位心理学家。

而我过去一年提出的解决方案可能是一个解决办法，我称之为目标驱动的AI。我在Open Review上发表了一篇论文。

它基于一种模块化的认知架构，这是一个由多个模块组成的系统。

第一个模块是 感知模块（Perception） 。它在大脑的后部表示，因为在人类大脑中，感知是在后部进行的，这个模块可以感知世界，然后构建对世界状态的估计。也许它需要将这个估计与包含有关世界状态的其他信息的记忆内容相结合。

然后这些信息进入 世界模型（World Model） 。世界模型的作用是想象一系列行动的结果。系统可以想象一系列行动，这就是 行动者 （Actor，黄色模块）的作用。行动者想象一系列行动，将其提供给世界模型。世界模型知道当前的世界状态，世界模型预测的是从那系列行动中产生的未来世界状态。这或许不会是完全准确的预测，因为世界并不完全可预测。但这就是世界模型的作用。

整个系统的 目的是找出一系列特定的行动，这些行动将预测满足一定数量约束的世界状态 ，这些约束由 成本模块 （Intrinsic cost，红色模块）实现。成本模块是系统的驱动力。如果你愿意，你可以将其视为从世界模型获取预测并计算成本。基本上，它计算系统的不舒适程度（Degree of discomfort）。

系统所做的是在内部找出一系列行动，这由Actor完成。 它找出一系列行动，根据世界模型的预测，使其成本最小化 。这非常类似于人们经典地进行最优控制的方式，被称为模型预测控制。

就像这样，观察世界的状态，获得初始的世界状态表示，并将其与你对世界状态的认知相结合，将一系列行动传递给世界模型，并要求世界模型预测最终状态将在何处，然后将其提供给你的目标。你的目标可能是系统为自己设定的目标，也可能是你为系统设定的目标。但你还可以有一些防护措施。例如，如果我们有一个家庭机器人正在做饭，手里拿着刀子因为要切洋葱或其他东西，你可能会有一个成本，即如果你手里拿着刀子并且周围有人，不要把手动得太快。不要挥舞你的手臂，因为那可能是危险的。

Sora不是“世界模型”？来听图灵奖大神LeCun硬核解读什么才是“世界模型”！

正文

什么是自监督学习？

什么是自回归模型？

为什么需要世界模型？

世界模型应该是什么样的？

请到「今天看啥」查看全文