专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  【[52星]N8loom:基于树结构的前缀缓 ... ·  昨天  
机器之心  ·  自有歪果仁为DeepSeek「辩经」:揭穿围 ... ·  2 天前  
机器学习研究组订阅  ·  o3-mini物理推理粉碎DeepSeek ... ·  4 天前  
爱可可-爱生活  ·  【[70星]Extract-chat:通过聊 ... ·  4 天前  
51好读  ›  专栏  ›  新智元

惊天反转!LeCun竟与奥特曼达成共识:承认AGI 5到10年降临,但LLM注定死路一条

新智元  · 公众号  · AI  · 2024-11-29 13:20

正文



新智元报道

编辑:Aeneas 好困
【新智元导读】 就在刚刚,LeCun一反常态地表示:AGI离我们只有5到10年了!这个说法,跟之前的「永远差着10到20年」大相径庭。当然,他还是把LLM打为死路,坚信自己的JEPA路线。至此,各位大佬们的口径是对齐了,有眼力见儿的投资人该继续投钱了。

就在刚刚,LeCun反水了!

2023年12月,他言之凿凿地坚称:人类水平的AI,离我们还有10到20年。

然而就在最近,他忽然改变说法了!

现在,他表示:在5到10年内,我们就能拥有人类水平的AI了。

主持人追问:我们感觉您之前似乎不喜欢这个观点啊,您之前不是说过AGI离我们很远很远之类的话吗?

LeCun立马否决道:不,我不觉得AGI离我们很远。

他还强调,自己对AGI何时到来的预测,跟Sam Altman、Demis Hassabis这些人也没什么不同。

总之,AGI在十年内大概率要到来,但不太可能是明年或后年。

不过,虽然他改变了对时间的预测,但并没有改变对目前的大语言模型架构是死路一条的看法。

他表示,我们不能盲目推断LLM的能力,断定只要继续scaling,用更大的超算、更多的数据,AGI就会涌现。

我们需要的是JEPA之类的全新架构,从周围世界进行学习的系统。这种AI能按重要性计划一系列动作,而不是像目前的LLM一样,完全不加思考地在一个词后产生另一个词。

总之,我们需要的是系统2,而不是系统1。而目前的LLM,仅限于系统1的阶段。而LeCun所探讨系统「目标驱动的人工智能」,就是系统2。

对此,一众网友都震惊了:他以前不是坚定地否决AGI离我们很近这类观点吗?

有人解释道,这大概是因为大家还缺乏对于AGI共识的定义,因为对于AGI定义很模糊,所以怎么说都能自圆其说。

其中,下面这条留言最为好笑。

网友表示,估计有Meta内部的人找他谈了。说如果想要实现AGI,就得拉很多很多投资。如果还在讲什么AGI遥不可及,我们就没办法忽悠更多的投资人了!

AI的核心问题:对世界更好的心智模型

最近,LeCun接受了Nikhil Kamath主持的People by WTF栏目的访问,讨论了关于AI的诸多问题。

LeCun在巴黎的学校里学习的是EE(电气工程),但随着学习的深入,他开始对数学、物理和AI中更基本的问题更兴趣。

在EE的学习中,总会有些课程涉及到计算机。在1980年代,LeCun就已经和数学教授一起做了一些独立项目。

现在,LeCun已经成为图灵三巨头之一。

作为科学家,他尝试建立世界的因果模型。

在他看来,几乎我们面临的每个问题,根源就是因为人类知识和智慧的不足。我们会犯错,就是因为不够聪明,无法意识到存在问题,所以也无法找到解决方案。

LeCun表示,如果我们的智慧更多一点,如果我们对于世界如何运作有更好的心智模型,我们就不会像现在这样犯错,而是做出更理性的决策。

而这,也是AI领域的核心问题。

当今世界的一个大问题,就是人们没兴趣去找出事实,也不愿意自教育,但是,AI有可能放大全人类的整体智能,这是解决许多人类问题的关键。

智能是一种由大量简单元素组成的网络相互连接所出现的现象。

在40、50年代,人们开始发现,智能和记忆来自于神经元之间连接强度的一种简化方式。大脑学习的方式,是通过修改神经元之间的连接强度来实现的。

因此,有些人提出了理论模型,并且用电子电路将之复现了。

经典计算机科学的出现:启发式编程

按照解决问题能力和学习能力,AI形成了两个分支。

后者在50、60年代取得了一些成果,但在60年代后期却失败了。因为当时设计的神经网络学习程序非常有限,不可能用来制造真正智能的机器。

不过,它在模式识别的工程领域,却产生了很大影响。

接下来,他们谈到了启发式编程。

机器学习最简单的情况,就是去感知,解释图像,解释声音,这是经典计算机科学出现的原因。

我们编写一个程序,这个程序在内部搜索解决方案,并且有一种方式来检查它提出的方案是否合适,这就是启发式编程。

然而,我们无法详尽无遗地搜索所有可能的方案,来找到一个最好的解,因为解决方案的数量大得惊人。

就像在国际象棋中,动作序列是一个指数级的增长,以后我们需要启发式方法,让树搜索或专家AI来运行一个函数,尝试达到最终状态。

好的系统和坏的系统的区别就在于,系统是否足够聪明,能在不进行穷尽搜索的情况下,找到一个好的解决方案。

这就引出了专家系统,或基于世界的系统的AI。它们与搜索的概念密切相关。

人们提出了一种算法,来改变神经元之间连接的强度,使他们能够学习任务,这种类型的第一个机器叫做感知机,在1957年被提出来。

MIT教授Marvin Minsky和同校的数学家Seymour Papert就合著了一本《感知机》,这种统计模型识别在现实世界中有巨大的应用。

不过,感知机有个严重的问题,就是它可访问的函数类型非常有限,没办法让我们用一张自然图片,就能训练系统判断其中是否有狗、猫或者桌子。

系统不够强大,无法真正计算这种复杂的函数。

强化学习与自监督学习


在80年代,神经网络和深度学习改变了这一切。实际上,神经网络是深度学习的祖先,深度学习可以看作它的新名字。

我们的想法是,不是完全编程让机器去做某事,而是通过数据对其进行训练。

在机器学习中,有线性回归,分类树,支持向量机、核方法、贝叶斯推理等等。

在某种程度上,它们都遵循这样的模型:我们构建了一个程序,但它实际上还没有完成。它有一堆可调参数,输入输出函数由这些参数的值决定。

因此,我们使用迭代调整技术从数据中训练系统。如果示例答案不正确,就调整参数,使其更接近我们想要的答案。

在强化学习中,我们不直接告知系统正确答案。只是告诉它所产生的答案好坏与否。

而过去五六年非常突出的自监督学习,已经真正成为让聊天机器人和自然语言理解系统成功的主要因素。

它更类似于监督学习,但不同之处在于不需要有一个明确的输入和输出,并训练系统从输入生成输出。

唯一的区别并不在于算法本身,而是体现在系统的结构和数据的使用及生成方式上。

我们不需要有人逐一检查数百万张图片,告诉它这是猫还是狗在桌子旁边。我们只需展示一张狗、猫或桌子的照片,并对其进行破坏,部分改变它,然后要求系统从损坏的图像中恢复原始图像。

这就是自监督学习的一种特定形式。

而这,对于自然语言理解的成功起到了关键作用。

比如,在大语言模型中,我们训练一个系统来预测下一个词,但是只允许它查看前面的词语。这就需要以一种特定的方式构建神经网络,使得用于预测一个词的连接只能看到前边的词,这样就不必对输入进行干扰了。

最终,系统被训练成从内容中预测出接下来的单词。

在Transformer架构下,基本原理就是将每个输入与其他输入进行比较,并生成权重。

反向传播算法与卷积神经网络

而反向传播算法的作用,就是在我们展示一张C的图像,并告诉系统这是C时,它能激活相应的输出神经元,而不激活其他神经元。

它知道如何调整参数,使得输出更接近我们想要的结果。这是通过向后传播信号来实现的,基本上可以说是确定每个权重对每个输出的敏感度,从而改变权重,让好的输出增加,坏的输出减少。

其实,反向传播算法之前就存在,但当时人们没有意识到它可以用于机器学习,后来它从20世纪80年代开始风靡。

反向传播算法至关重要,因为它打破了Minsky和Papert在20世纪60年代所说的感知机的限制,因此掀起了一股巨大的浪潮。

但人们后来意识到:训练这些神经网络需要大量的数据。

那时候还没有互联网,数据并不丰富,计算机速度也不快,因而人们对此兴趣减弱。

但是在80年代末、90年代初,LeCun研究的一个项目是,如果想让这种系统识别图像,就需要以某种特定的方式连接神经元来促进系统的关注。

他从生物学中获得了灵感,借鉴了可以追溯到20世纪60年代的经典神经科学研究,以分层的方式来组织神经元之间的连接,使它们倾向于找到良好的图像识别解决方案。

这就是所谓的卷积神经网络。

它的设计灵感,来源于视觉皮层的架构。

卷积神经网络特别适合处理来自自然世界的数据,如果我们拍一张照片,并取其中两个相邻的像素点,它们很可能具有相同的颜色或相同的强度。

像图像和音频这样的自然数据,以及几乎所有类型的自然信号都有其内在的结构。如我们以特定方式构建神经网络来利用这种结构,它将学得更快,并且只需较少样本即可学习。

卷积是卷积神经网络中的一个组件。

它的思想是,一个神经元查看输入的一部分,另一个神经元查看输入的另一部分,但它计算与第一个神经元相同的函数。

接着将这个相同的神经元复制到输入的所有位置上,这样我们就可以把每个神经元看作是在检测输入某一部分的一个特定模式,并且所有神经元在输入的不同部位都检测同一个模式。

所以现在如果你取一个输入并将其移动,就会得到同样的输出,但位置不同,因为相同的神经元会查看,并在不同的位置上检测到相同模式。

这就是为什么它会给你这种位移等变性,也就是所谓卷积。

它们之于真正的神经元,就如同飞机的机翼之于鸟类的翅膀——功能相同,具有同样的概念。

AI捕捉到了语法的机器学习机制

香农的n-game模型,是一个语言模型。

我们可以在字符级别这样做,但是在单词级别这样做,就会更困难,因为可能有一万个可能的单词。

我们需要在通过在一个大型文本语料库上训练,来填充这个概率表,从而训练一个词模型或语言模型。

但是在某个上下文长度以上,就变得不切实际了。因为需要大量的计算和工作量,还涉及到存储所有这些表格的记忆,另外这些表格的填充也会非常稀疏,因为即使有数十亿个词的文本,大多数词组组合都是不会出现的。

而如果采用Transformer这类架构的话,就能构建起一个系统,使其能够根据上下文中的词语预测下一个词。

如果让这个上下文尽可能大,比如几千个、几万个甚至一百万个词,那么就会得到具有涌现特性的系统。如果把它们做得足够大,可能能达到数十亿或数百亿个参数。

在这种情况下,如果是文本的话,它们会复述解谜的答案,会给出你可能需要的问题答案。

这个过程中主要是检索,有一点点推理,但不多。

人们真正感到惊讶的,是这些系统能以令人印象深刻的方式操纵语言。

要知道,人类在操纵语言方面其实相当有限,但AI似乎做得很好——它们捕捉到了语法的机器学习机制。

大语言模型,并不是通往AGI的路径


在语言中,可能性有限的情况下,我们的确可以输出一个概率列表。

但如果想预测视频中会发生什么,帧数却是无限的。一张图像有一千个像素,像素颜色有三个值,因此需要生成三百万个值,但我们还不知道如何表示所有可能的图像集的概率分布。

这是我们很多人认为AI领域下一个挑战的地方。

如果说从视频和图片中学习,这将是下一阶段,那么它应该放在哪里?它属于大语言模型现在的范畴吗?

不,它与大语言模型完全不同。这也是为什么LeCun一直明确表示,大语言模型并不是通往人类级别智能的路径。

这也是为什么大语言模型无法理解物理世界,并且不能以目前的形式真正理解和应对现实世界的原因。

尽管LLM在处理语言方面表现出色,但它们也会犯非常愚蠢的错误,这表明其实它们并不理解世界是如何运作的。

我们没有真正理解基本事物的系统,而这些是你的猫都能理解的事。

所以LeCun一直直言不讳地说,最聪明的LLM也并不比你家里猫更聪明。







请到「今天看啥」查看全文