专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
51好读  ›  专栏  ›  数据派THU

10²⁶参数,AGI还需70年!清华人大预测届时GPU总价达4000万倍苹果市值

数据派THU  · 公众号  · 大数据  · 2025-03-19 17:00

正文

图片
来源:新智元
本文约4400字,建议阅读8分钟
清华、中国人民大学的研究团队计算得出:人类距离AGI还有70年!


图片


[ 导读 ] AGI明年降临?清华人大最新研究给狂热的AI世界泼了一盆冷水:人类距离真正的AGI,还有整整70年!若要实现「自主级智能,需要惊人的10²⁶参数,所需GPU总价竟是苹果市值的4×10⁷倍!


AGI,就在今年;诺奖级AI,将2026年-2027年诞生。


不论是奥特曼,还是Anthropic首席执行官Dario Amodei,AI界科技大佬纷纷认为「超级智能」近在眼前。


甚至,几天前,纽约时报的一篇文章称,美国政府知道AGI要来,并有了相应的想法和对策。


图片


AGI真的就要来了吗?


最近,来自清华、中国人民大学的研究团队最新研究,计算得出:


人类距离AGI还有70年!


他们提出了一个全新的框架「生存游戏」(Survival Game),以评估智能的高低。


在这个框架中,智能不再是模糊的概念,而是可以通过试错过程中失败次数进行量化——失败次数越少,智能越高。


图片
论文地址:https://arxiv.org/pdf/2502.18858


当失败次数的期望值和方差都保持有限时,意味着系统具备持续应对新挑战的能力,作者将其定义为智能的「自主水平」。


实结果发现,在简单任务中,基本的模式识别或规则推理,AI具备了自主能力,失败次数低且稳定。


然而,当任务难度加大,比如视频处理、搜索优化、推荐系统、自研语言理解时,AI表现未达标。


失败次数激增,解决方案稳定性随之下降。


图片


他们预测,要在通用任务中达到「自主水平」,AI模型有高达10²⁶参数。


想象一下这个规模:训练这样一个模型所需的H100 GPU总价值,竟然是苹果市值的4×10⁷倍!


图片


即便按照摩尔定律的乐观估计,支撑这种参数规模的硬件条件也需要70年的技术积累。


图片


这笔账,究竟是如何算出的?


智能,「自然选择」的试错淬炼


首先,我们需要先谈谈智能,它是如何产生的?


它并非与生俱来的天赋,而是自然选择在亿万年进化中塑造的必然产物。


今天,我们看到的每一种生命形式——无论是人类、动物还是植物——都遵循着这条法则。


「自然选择」的过程就像一场无情的考试:物种必须在不确定性中探索,寻找生存的答案,反复尝试直到成功


图片


如果找不到解决方案,它们就会在这场残酷的考验中被淘汰,无法延续。


受此启发,研究人员提出了「生存游戏」这一框架,用以量化并评估智能。


这里,智能的高低不再是抽象的概念,而是可以通过试错过程中,找到正确解决方案的失败次数来衡量。


也就是之前所说的,失败次数越少,智能越高。


失败次数,作为一个离散随机变量,其期望和方差的大小直接反映了智能水平。


图片


如果期望和方差无限大,主体将永远无法找到答案,也就无法在「生存游戏」中存活;反之,如果两者都收敛,则表明主体具备高效解决问题的能力。


生存游戏,三大智能分级


基于失败次数的期望和方差,研究人员将智能分为三个层次:

  • 有限级:期望和方差都发散,主体只能盲目枚举可能的解决方案,效率低下,难以应对复杂挑战。

  • 胜任级:期望和方差有限但不稳定,主体能在特定任务中找到答案,但表现不够稳健。

  • 自主级:期望和方差都收敛且较小,主体能通过少量尝试稳定地解决问题,以可承受的成本自主运行。


图片


这一分级不仅适用于生物智能,也为评估AI提供了科学的标尺。


LLM停留在「有限级」


具体实验中,研究人员将当前最领先的大模型在「生存游戏」中进行评估,结果令人深思。


在手写数字识别等简单任务中,AI的表现达到了「自主级」,失败次数少且稳定,展现出高效的解决能力


图片


然而,当任务复杂度提升到视觉处理、搜索引擎优化、推荐系统、自然语言理解时,AI大多停留在「有限级」。


这意味着,它们无法有效缩小答案范围,表现近似于「暴力枚举」,既低效又容易出错。


如下图4所示视觉处理中,第一行展示了图像分类任务的结果,不同图像对应不同的模型。


可以看到,所有模型都处于有限级。


随着使用更大的MAE模型,衰减率增加,数据点逐渐接近胜任级。


在随后的两行中,展示了MS COCO和Flickr30k数据集的结果。同一行中的不同图像对应不同的模型。


结果表明,即使是当今最先进的模型也处于有限级,衰减率在1.7或以下,远未达到胜任级2的阈值。


从中,也可以看到与第一行类似的趋势:模型越大,越接近胜任级,但边际改善逐渐减小。


图片


下图5可以看到,在所有数据集和所有文本搜索模型中,LLM性能都停留在有限级。


图片


图6、图7、图8、图9、图10分别展示的是在推荐系统、编码、数学任务、问答、写作中,LLM的性能表现。


图片

图片

图片

图片


图片


这种局限性与此前的一些研究乐观结论,形成了鲜明的对比。


许多研究表明,AI已接近人类智能水平,但「生存游戏」揭示了一个更现实的图景:

大多数AI系统仍处于初级阶段,依赖人类监督,无法独立应对复杂任务。


10²⁶参数,不可能的挑战


研究人员发现,AI的智能得分与模型规模呈对数线性关系。


基于这一规律,他们预测,要在通用语言任务中达到「自主级」,AI系统需要惊人的10²⁶个参数。


图片


这一规模相当于全人类大脑神经元总数的10⁵倍!


若要加载如此庞大的模型需要5×10¹⁵张H100 GPU,其总成本高达苹果公司市值的4×10⁷倍。


图片


即便是按照摩尔定律计算,硬件技术也需要70年才能支撑这一规模。


这一天文数字的代价表明,仅仅依靠扩大当前AI技术的规模来解决人类任务,几乎是不可能的。


那么问题究竟出在哪?


AI浅层学习,难以突破


为了探究AI的瓶颈,研究人员结合「自组织临界性」(SOC)理论对「生存游戏」进行了深入分析。


结果显示,许多人类任务具有「临界性」的特征,即环境哪怕发生微小的变化,也可能需要完全不同的应对策略。


比如,人类在对话中能根据语气调整回应,在混乱场景中迅速锁定目标







请到「今天看啥」查看全文