专栏名称: Datawhale

一个专注于AI领域的开源组织，汇聚了众多顶尖院校和知名企业的优秀学习者，聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner，和学习者一起成长。

LeCun最新访谈：DeepSeek是一项很出色的成果

Datawhale · 公众号 · · 2025-03-11 13:42

正文

Datawhale分享

访谈：Yann LeCun，编译：量子位

LeCun最新访谈，对DeepSeek一顿猛夸。

他表示， DeepSeek是一项很出色的成果，它的开源不只是成果创造者受益，全世界都能从中受益 。

不过LeCun也指出，金融市场对DeepSeek出现的反应，说什么“哦，现在我们可以更便宜地训练系统了，所以我们不再需要那么多计算机”，这种说法是错误的。

最终大部分的基础设施建设和大部分的投资实际上都用在 运行模型 上，而不是训练模型。

顺带他还提到了对 OpenAI“星际之门”项目 的看法，OpenAI之前官宣将与软银甲骨文组建合资公司，未来4年内总投资 5000亿美元 在这个项目上，LeCun却表示不认为它会改变一切。

他认为这个项目的投资与微软、Meta的投资规模实际上处于同一数量级，并没有太大的不同。

另外，LeCun着重讲了现在的AI系统在很多方面都还非常“愚蠢”，光靠大语言模型不行，AI发展需要 理解复杂物理世界 。

在不改变原意的基础上，对部分问题进行了翻译整理。

最新访谈问题整理

谈AI是否会有类似人的情绪

Q：我们努力推动AI达到与人类能力相匹配的水平。现在我们是否会让AI展现出类似人类愤怒这类的情绪呢？你觉得这有可能实现吗？

LeCun： 不，我不这么认为。

目前AI系统在很多方面都还非常“愚蠢”，我们之所以会觉得它们很聪明，是因为它们能够很好地处理语言，但实际上它们并不具备真正的智慧。

它们不理解物理世界，也没有像我们人类所拥有的那种持久记忆，无法真正地进行推理，也不能制定计划。而这些都是智能行为的基本特征。

所以，我和我在FAIR以及纽约大学的同事们一直在努力做的一件事，就是设计一种新型的AI系统，而且它仍然是基于深度学习的。

这种系统将能够理解物理世界，拥有实体记忆，并且能够进行推理和规划。在我看来，一旦我们成功地按照这个蓝图构建出这样的系统，它们就会拥有情感，可能会恐惧、兴奋或者失落，因为这些都是对结果的预期。

这些系统会按照我们设定的目标来运行，然后会尝试弄清楚自己可以采取怎样的行动来实现这个目标。如果它们能够提前预测到目标将会实现，在某种程度上会“感到高兴”；如果它们预测到无法实现目标，它们就会“不开心”。

所以在一定程度上它们会拥有情感，因为它们将能够预测自己可能采取的一系列行动的结果。

但是我们不会在它们的程序中人为设定类似愤怒、嫉妒之类的情感。

但 意识是另外一回事，我们实际上并不清楚它究竟是什么 ，目前并没有一个真正意义上的定义，也没有任何一种真正可衡量的东西能让我们判断某样事物到底有没有意识。

就好比我们观察动物，大概我们都会认同猿是有意识的，也许大象以及诸如此类的动物也是有意识的，但狗有意识吗？老鼠有意识吗？界限在哪里？

因为我们没有一个关于意识的恰当定义，所以我们确实无法判断。

谈机器学习三种模式

Q：当年你说机器学习很烂，现在情况有什么变化吗？

LeCun： 这就是我们正在努力的，我们正在寻找构建机器学习系统的新方法，让它们能够像人类和动物那样高效地学习，因为目前的情况并非如此。

我可以给你讲讲过去几十年里机器学习是如何发展的。实际上 机器学习主要有三种早期模式 。

一种叫监督学习，这是最经典的一种。

训练一个监督学习系统的方式是这样的，例如对于一个用于识别图像的系统，你给它展示一张图片，比方说一张桌子的图片，然后告诉它“这是一张桌子”，这就是监督学习， 你告诉了它正确答案是什么 ，也就是系统计算机的输出应该是什么。

如果它给出的不是“桌子”，那么它就会调整自身的参数，也就是它的内部结构，使得产生的输出更接近你想要的结果。

如果你不断地用大量桌子、椅子、汽车、猫、狗等例子来进行训练，最终这个系统将会找到一种方法，能够识别出你用来训练它的每一张图像，而且对于那些它从未见过但与训练图像相似的图像，它也能识别，这就叫做泛化能力。

还有另一种模式，人们认为这种模式更接近动物和人类的学习方式，叫做强化学习。

在强化学习中，你不会告诉系统正确答案是什么， 你只告诉它所产生的答案是好还是坏 。在某种程度上，这可以解释人类和动物的一些学习类型。比如，你尝试骑自行车，一开始不知道怎么骑，过了一会儿你摔倒了，所以你知道自己做得不好，于是你稍微改变一下策略，最终你就学会了骑自行车。

但事实证明，强化学习效率极其低下。

如果你想训练一个系统来下国际象棋、围棋或者玩扑克之类的，它确实效果很好。因为你可以让系统自己和自己玩数百万局游戏，然后基本上就能对自身进行微调。

但在现实世界中，它并不太适用。如果你想训练一辆汽车自动驾驶，你可不能用强化学习的方法，不然它会撞车成千上万次。如果你训练一个机器人学习如何抓取东西，强化学习可以是解决方案的一部分，但它不是全部，仅靠强化学习是不够的。

所以还有第三种学习形式，叫做自监督学习。

正是自监督学习推动了近期自然语言理解和聊天机器人领域的进展。在自监督学习中，你 不是训练系统去完成特定的任务，而是训练它去捕捉输入的结构 。

比如说，在处理文本和语言方面的应用方式是，你取一段文本，以某种方式对它进行破坏，比如删除一些单词，然后训练系统去预测缺失的单词。

这种方式的一个特殊情况是，你取一段文本，这段文本的最后一个单词是不可见的。所以你训练系统去预测这段文本的最后一个单词。这就是训练大语言模型以及所有聊天机器人所采用的方式。

从技术层面来说会有所不同，但基本原理就是这样。这就叫做自监督学习。你不是为了某个任务去训练系统，只是训练它去学习输入内容的内部依赖关系。

自监督学习的成功令人惊叹，它的效果出奇地好，最终你得到的系统似乎真的理解了语言，并且如果你通过监督学习或强化学习对它们进行微调，使它们能够正确回答问题，那么这些系统就能理解问题。

这就是目前行业内大家都在努力研究的方向，但如果你想要一个系统去理解物理世界，这种模型就不管用了。

谈AI系统所缺的关键要素

LeCun： 物理世界比语言要难理解得多，我们往往认为语言是展现智能的重要方面，因为只有人类能够运用语言。 但事实证明，语言其实是相对简单的。

它之所以简单，是因为它是离散的，是由一系列离散的符号组成的序列。

字典里可能出现的单词数量是有限的，所以，虽然你永远无法训练一个系统精确地预测下一个出现的单词是什么，但你可以训练它为字典里的每个单词在那个位置出现的概率进行估算。这样，你就可以通过这种方式来处理预测中的不确定性。

然而，你却 无法训练一个系统去预测视频中将会发生什么 。

人们尝试过这么做，我自己也为此努力了20年，如果你能够训练一个系统去预测视频中将会发生的事情，那么这个系统就会潜移默化地理解这个世界的底层结构，比如直观的物理学知识，以及任何动物和人类在婴儿时期所学到的关于物理方面的一切知识。

你知道的，如果我拿起一个物体然后松开手，它就会掉落，重力会把物体拉向地面，人类婴儿大概9个月大的时候就学会了这一点。

这是个棘手的问题，猫或者狗几个月的时间就能了解重力，而且猫在这方面真的很厉害，它能够规划复杂的动作，爬上爬下还能跳跃，它对我们所说的直观物理学有着非常好的理解。而我们还不知道如何用计算机来重现这一点。

原因就在于，这又是AI研究人员所说的“ 莫拉维克悖论 ”。

汉斯・莫拉维克是一位机器人专家。他指出，为什么我们能让计算机下棋、解决数学难题，但却无法让它们做一些像动物能做的操控物体、跳跃之类的物理动作？

所以这就是这个悖论的又一个例子，即 离散物体和符号的空间很容易被计算机处理，但现实世界实在是太复杂了，在一种情况下有效的技术在另一种情况下却行不通 。

如果你想直观地理解这一点，有个不错的方法：通过我们的感官比如视觉或触觉，传递给我们的信息量，与我们通过语言获取的信息量相比，绝对是极其庞大的。

这也许就能解释为什么我们有大语言模型、聊天机器人，它们能通过律师资格考试，能解决数学问题，或者写出听起来不错的文章。但我们仍然没有家用机器人。我们仍然没有能完成猫或狗能完成的任务的机器人。我们仍然没有达到L5完全自动驾驶的汽车，而且我们肯定也没有能像17岁的孩子那样，通过大约20个小时的练习就能学会驾驶的自动驾驶汽车。

所以很明显，我们还缺少一些关键的东西，而 我们所缺少的，就是如何训练一个系统去理解像视觉这样复杂的感官输入 。

如果你想要拥有与动物和人类智力相仿的机器，它们具备常识，或许在某个阶段还拥有意识以及其它能力，并且能够真正应对复杂世界中错综复杂的情况，那我们就需要攻克这个难题。