专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

原创 | 展望大语言模型在AGI时代的发展前景

数据派THU · 公众号 · 大数据 · 2024-11-18 17:00

正文

作者：王雨润
本文约5000字，建议阅读10分钟
AGI的目标一直是人工智能研究的终极愿景。

一、什么是AGI

AGI（Artificial General Intelligence，通用人工智能）指的是一种能够像人类一样，在多种任务中表现出广泛而灵活的智能能力的人工智能系统。与当前的狭义人工智能不同，AGI不仅仅是针对某一特定任务进行优化，而是具备在多种环境和问题中适应和解决问题的能力。AGI应当能够自主学习、推理、规划和决策，并具有类似人类的常识和长期记忆能力，从而能够解决那些需要跨领域知识和复杂推理的任务。

窄人工智能（Narrow AI）：指的是能够在特定任务上表现优异的人工智能系统，例如图像识别、语音识别等。当前大多数AI系统都属于这一范畴。
广义人工智能（Broad AI）：这一阶段的AI系统能够在多个领域中表现出较强的智能能力，但仍需依靠人类提供明确的目标和训练数据。
通用人工智能（AGI）：即真正具备与人类相当的认知能力，能够在任何任务中独立学习和适应。

AGI的概念最早由人工智能先驱艾伦·图灵（Alan Turing）和约翰·麦卡锡（John McCarthy）等人提出，他们设想了一种能够像人类一样，具备广泛认知和适应能力的人工智能系统。在1950年，图灵在其著名的论文《计算机器与智能》中提出了著名的“图灵测试”，以评估机器是否能够表现出人类智能水平。这一想法为AGI的研究奠定了基础。

Google DeepMind研究团队根据AI模型性能和学习处理任务的广泛性对AGI水平进行划分，从Level-0无人工智能到level-5超越人类共划分为6个等级。

狭义人工智能

（明确界定的任务或任务集）

通用人工智能

（广泛的非物理任务范围，包括学习新技能等元认知任务）

Level 0：无人工智能（No AI）

狭义无人工智能（Narrow Non-AI）

计算器软件；编译器

通用无人工智能（General Non-AI）

人工介入计算，例如，Amazon Mechanical Turk

Level 1：新兴（Emerging）

（等于或略优于无技能人类）

新兴狭义人工智能（Narrow Emerging Narrow AI）

GOFAI；简单规则系统，例如SHRDLU

新兴通用人工智能（Emerging AGI）

ChatGPT, Bard, Llama 2, Gemini

Level 2：熟练（Competent）

（至少达到熟练人类的50%）

熟练狭义人工智能（Competent Narrow AI）

毒性检测器如Jigsaw；智能扬声器如Siri(Apple), Alexa(Amazon), 或 Google Assistant(Google)；视觉问答系统如PaLI; Watson (IBM); 特定任务子集的最新LLMs（例如，短文写作，简单编码）

熟练通用人工智能（Competent AGI）

尚未实现

Level 3：专家（Expert）

（至少达到熟练人类的90%）

专家狭义人工智能（Expert Narrow AI）

拼写和语法检查器如Grammarly；生成性图像模型如Imagen或 Dall-E 2

专家通用人工智能（Expert AGI）

尚未实现

Level 4：大师（Virtuoso）

（至少达到熟练人类的99%）

大师狭义人工智能（Virtuoso Narrow AI）

Deep Blue；AlphaGo

大师通用人工智能（Virtuoso AGI）

尚未实现

Level 5：超人类（Superhuman）

（超越100%的人类）

超人类狭义人工智能（Superhuman Narrow AI）

AlphaFold ， AlphaZero ，StockFish

超人类通用人工智能（Superhuman AGI）

尚未实现

DeepMind的研究团队强调，这些等级的划分是基于AGI的性能和通用性，并提出任何对AGI的定义都应满足六条原则，包括关注能力而非过程、关注通用性和性能、关注认知和元认知任务、关注潜力而非部署、关注生态效度、以及关注通往AGI的路径而非单一的终点。

1. 关注能力而非过程。AGI的评估应该基于它的输出和效能，而不是它内部的工作原理或机制。例如，一个AGI系统能够通过考试或解决复杂问题，我们关注的是它能否完成这些任务，而不是它是否像人类一样思考。

2. 关注通用性和性能。一个系统要被认为是AGI，它不仅要在多个领域（通用性）表现出色，而且要在这些领域中达到一定的性能水平。

3. 关注认知和元认知任务。认知任务是指那些涉及知识处理的任务，如理解、学习和记忆。元认知任务则涉及对自己的认知过程的认识和控制，如学习新技能或在遇到困难时寻求帮助。这条原则强调AGI不仅要能够执行具体的认知任务，还要能够进行自我反思和自我提升。

4. 关注潜力而非部署。在定义AGI时，应该关注系统潜在的能力，而不是它是否已经被实际部署或应用。这意味着即使一个系统在实验室环境中展示了超越人类的能力，即使它还没有被广泛部署，也可以被认为是AGI。

5. 关注生态效度。生态效度指的是研究或测试的环境与现实世界环境的相似程度，AGI的评估应该基于它在现实世界任务中的表现。

6. 关注通往AGI的路径而非单一的终点。这条原则认识到AGI的发展是一个渐进的过程，而不是一个单一的、固定的终点。这意味着我们应该关注AGI在发展过程中的不同阶段和里程碑，而不是只关注最终的、完全实现的AGI状态。

AGI的目标一直是人工智能研究的终极愿景，现阶段大模型在处理任务的广泛性上还有很大提升空间，目前大模型能力仍处于 Emerging AGI 水平。虽然 GPT-4、Gemini 1.5、Claude 3 等模型已经能够处理文本、图像、视频等多模态输入，并能够执行解决数学问题、创作内容、撰写诗歌和以信息丰富的方式回答问题等多种任务，但尚未具备独立决策和执行行动的能力。此外，现阶段更多的模型仍聚焦在某单一领域进行性能提升，比如 Kimi 在处理长文本输入领域表现突出，但尚不能进行图片生成；Sora 能够高质量完成文生视频任务，但不具备问答功能。

各类大模型成熟度为：语言大模型＞多模态大模型＞具身智能类大模型。语言大模型能力相对完备，在推理、长文本、代码生成领域已经能够完成初级任务，但距复杂、专业水平仍有差距；多模态大模型细节优化空间大，高质量和成规模的数据集仍在发展初期；具身智能类大模型还在探索阶段，底层技术路线尚不清晰，数据收集、训练方法、测评方法等都处于发展初期，在实际应用场景中准确率较低。

要实现AGI这一目标，大模型仍面临着诸多挑战, 主要挑战包括：理解自然智能、开发能够适应的完全自主模型，以及在理解物理世界方面保证安全和可靠。首先，AGI需要具备超越特定领域的通用性，而目前的大语言模型虽然在特定任务中表现优异，但其训练过程和知识掌握依然是被动的，缺乏主动的认知和自我反思能力。其次，AGI需要具备持续的学习能力，能够在不依赖大量标注数据的情况下，不断适应新环境和新任务。然而，现有的大语言模型主要依靠一次性的离线训练，而非动态的、在线的学习方式。此外，AGI还必须具备较强的推理和规划能力，能够通过逻辑推理和因果关系分析来解决复杂问题，而这些都是目前大语言模型的弱项。

二、基于LLM的AGI之路

(1)规模法则与模型扩展

在基于大语言模型（LLM）的通用人工智能（AGI）发展过程中，规模法则（scaling law）起到了至关重要的作用，尤其是在模型性能的提升、资源分配、训练策略和理解模型能力边界方面。规模法则的核心观点是，随着模型规模（包括参数数量、训练数据量和计算量）的增加，模型的性能也会随之提升。在深度学习中，研究人员发现当模型参数（例如神经网络的层数和节点数）和训练数据量逐步增加时，模型的性能通常会以某种可预测的方式提高。这种现象最早由OpenAI在其GPT系列模型的研究中系统地提出并验证。

OpenAI团队在2020年发表论文《Scaling Laws for Neural Language Models》，总结了模型参数、训练数据集大小、算力投入（FLOPs 每秒浮70B9操作）、网络架构之间的扩展法则。具体来说，Scaling law表明模型误差（E）与模型规模（N）、数据量（D）以及计算量（C）之间存在某种幂律关系，为指导LLM的有效扩展提供了理论依据。

模型性能的可预测性。规模法则提供了一种可预测的框架，通过研究模型大小（参数数量）、训练数据规模和计算预算之间的关系，可以预测模型的性能增长。理论上，随着参数数量、训练数据和计算资源的增加，模型的能力会呈现某种规律性的提升。这使得研究人员能够基于现有的资源和经验数据，预测更大规模模型的性能表现。

优化资源分配与成本效率。Scaling laws帮助研究人员评估在参数数量、训练数据量和计算成本之间的权衡。在AGI的研究中，资源成本（如计算资源和存储需求）极为巨大，scaling laws为如何在这些因素之间进行平衡提供了指导。例如，如果增大模型参数数量不能显著提高性能，那么就不应盲目扩展参数，而是应更加注重优化数据质量和训练方式。这种规律性还揭示了在不同规模下的计算效率问题，帮助开发者判断在哪个阶段增加计算资源能够获得最大的性能提升，进一步推进了LLM在AGI研究中的实践。

指导模型设计与架构选择。Scaling laws为模型架构的设计提供了理论依据。在发展AGI的过程中，研究人员可以通过观察不同架构的扩展规律，设计出更符合scaling laws的模型，从而提升性能和计算效率。这也促使了Transformer架324构的大规模应用，因为其展现出了与scaling laws一致的性能提升规律，使得该架构成为训练LLM的主流选择。此外，scaling laws可以揭示模型在不同任务上表现的差异，帮助开发者确定特定任务所需的最优模型规模和训练数据量。这为探索AGI在不同领域的适用性和泛化能力提供了可靠的理论支持。

业界部分学者认为Scaling Law是通往AGI的第一性原理，提升模型规模的本质是压缩，而压缩可以产生智能。这个过程会面临很多的挑战，包括模型效率和计算成本的限制、模型的泛化和认知能力、数据质量限制、因果推理和可解释性、持续学习与自我优化等。其中，最大的挑战可能是数据的缺失，很多领域的数据并不丰富。如果我们想构建一个超越人类的AI系统，而现实中可能根本就不存在这样的数据。同时在当前的技术框架下，训练更大规模的模型对计算资源的需求极其庞大，scaling law 的指导并不能无限地扩展，这使得 scaling law 具有一定的局限性。

(2)自我对弈（self-play）：LLM新范式

Self-Play（自我对弈）是一种通过模型自身与自身对抗进行学习的方法，已在强化学习领域中取得了显著成功，例如AlphaGo的训练过程。将Self-Play的思想应用于LLM，可以使模型在没有外部监督的情况下，通过自身的交互和竞争不断提升其能力。这种自主学习的方式可以增强模型的探索能力和适应性，从而在复杂环境中更好地实现自我优化。通过不断地进行自我对弈，模型可以在不同的任务和场景中积累经验，从而提高其解决问题的能力，逐步迈向AGI的目标。

在LLM的演进过程中，Self-Play被视为一种新的范式，能够加速智能体的学习和优化。当 LLMscaling up 的边际收益开始递减，用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下，LLM 领域的 scaling law 会发生变化：计算量变大仍会带来模型智能的提升，但会从模型参数量变大，转移到模型进行更多强化学习探索。通过自我对弈，智能体能够快速发现自身策略的不足，并进行调整。这种快速迭代的过程使得智能体能够更快地适应复杂环境，进而提升其逻辑推理能力。

此外，Self-Play技术的优势在于它不依赖于外部数据集或标签，智能体通过自我对弈生成的数据进行训练，降低了对外部资源的依赖。这种方法能够自动生成奖励信号，简化了传统强化学习中需要外部奖励信号指导的复杂过程。

Self-Play的最新进展也包括在多智能体环境中的应用，通过让多个智能体互相对弈，进一步提高了策略多样性和复杂性。这种多智能体自我对弈的方法，不仅提高了模型的协作能力，还提升了模型在面对不确定性和多变环境时的应对能力。此外，结合Self-Play的多模态扩展，也在探索中，例如在视觉-语言任务中应用Self-Play，使得模型能够通过多模态互动不断提高感知和推理能力，这为实现更为全面的AGI提供了新的可能。

编辑：黄继彦

作者简介

王雨润，北京大学国土空间规划专业博士在读，研究方向集中于人类移动性与城市复杂性建模、特别关注如何通过大规模图学习与因果推断技术来解析城市动态和社会行为模式。

数据派研究部介绍

数据派研究部成立于2017年初，以兴趣为核心划分多个组别，各组既遵循研究部整体的知识分享和实践项目规划，又各具特色：

算法模型组：积极组队参加kaggle等比赛，原创手把手教系列文章；

调研分析组：通过专访等方式调研大数据的应用，探索数据产品之美；

系统平台组：追踪大数据&人工智能系统平台技术前沿，对话专家；

自然语言处理组：重于实践，积极参加比赛及策划各类文本分析项目；

制造业大数据组：秉工业强国之梦，产学研政结合，挖掘数据价值；

数据可视化组：将信息与艺术融合，探索数据之美，学用可视化讲故事；

网络爬虫组：爬取网络信息，配合其他各组开发创意项目。

点击文末“阅读原文”，报名数据派研究部志愿者，总有一组适合你~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派THUID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

未经许可的转载以及改编者，我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

点击“阅读原文”拥抱组织