专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

清华团队「超级对齐」新研究：如何定义？怎样实现？

学术头条 · 公众号 · · 2024-12-18 18:13

正文

超级智能（Superintelligence）是人工智能（AI）发展的更高维方向，具备远超人类的认知和能力，其潜在应用令人期待，但也将带来前所未有的治理与安全挑战。

哲学家 Nick Bostrom 在 2014 年出版的《超级智能：路径、危险、策略》一书中写道，“ 超级智能如果被创造出来，将很难控制，它可能会为了实现目标而占领世界 。”

为应对超级智能可能带来的风险， OpenAI 在 2023 年提出 “超级对齐”（Superalignment） 并组建了超级对齐团队，但“宫斗”的失败导致联合创始人、首席科学家 Ilya Sutskever 以及其他核心成员相继离开，相关工作戛然而止。

如何确保这些超人类智能系统仍然安全、可靠并与人类价值观保持一致，已经成为科技公司、高校院所和监管机构重点研究的关键问题。尤其是， 当任务复杂到人类专家难以标注，而模型智能程度也已超过人类时，传统的基于人类反馈的对齐方法将不再奏效 。

日前，来自 清华大学、电子科技大学 的研究团队从学习的角度讨论了超级对齐的概念，通过概述从大规模预训练、监督微调到对齐训练的学习范式转变来回答上述问题，并把“超级对齐”定义为：

当人类专家标注的任务变得非常复杂，而模型又比人类专家更强时，设计有效且高效的对齐算法，以可扩展的方式从有噪声标记的数据（逐点样本或成对偏好数据）中学习。

论文链接： https://arxiv.org/abs/2412.11145

首先，他们强调了超级对齐中的一些关键研究问题，即 从弱到强的泛化、可扩展的监督和评估 。

然后，他们提出了超级对齐的概念框架，其由三个模块组成： 攻击者 ，它生成对抗查询，试图暴露学习者模型的弱点； 学习者 ，它将通过从批评者模型和很少人类专家生成的可扩展反馈中学习来完善自己； 批评者 ，它为给定的查询-响应对生成批评或解释，目标是通过批评来改进学习者。

另外，他们也讨论了这一框架各组成部分中的一些重要研究问题，并强调了与这一框架密切相关的一些有趣的研究想法，比如自我对齐、自我对弈、自我完善等。

最后，他们强调了超级对齐的一些未来研究方向，包括 识别新出现的风险和多维对齐 。

从学习视角定义「超级对齐」

研究团队从学习视角出发， 回顾了大语言模型从预训练到对齐训练的演变，并定义了超级对齐的独特需求 。他们指出，现有的大语言模型（LLM）在训练过程中经历了从预训练到对齐训练的转变，但两者各有侧重，未能全面满足超人类智能任务对安全与可靠性的需求。

预训练阶段通常采用海量的无监督文本数据 ，通过预测下一个 token 的方式来捕捉语言的广泛模式，赋予模型强大的跨任务泛化能力。然而，这一阶段并未嵌入明确的人类价值观和安全约束。

对齐训练则通过 RLHF（基于人类反馈的强化学习）等方法，利用高质量标注数据进一步调整模型生成行为，使其更符合人类需求 。尽管如此，对齐训练依然存在巨大的局限性：对人类标注的依赖，使得这一方法难以应对超复杂任务，而当任务的复杂性超越人类能力时，传统对齐方法更是失效。

基于上述的梳理，研究团队提出了上述的“超级对齐”的概念。

三大关键研究问题

研究团队进一步指出了超级对齐面临的三大关键研究问题，分别是“弱到强的泛化”、“可扩展监督”和“对齐评价”。

首先，在弱到强的泛化方面，研究团队指出， 超级对齐中模型的监督来源可能比目标模型更弱 。这就要求从有限的弱监督信号中提取有用信息，同时设计出能够从噪声标签中学习的鲁棒算法。未来的研究需要探索多模型协同监督的方法，通过模型之间的合作和反馈生成，弥补单一弱监督的不足。

其次，他们指出了可扩展监督的重要性。传统的监督方式依赖人类专家提供标签，但在超人类任务中，专家标注往往成本高昂且难以满足需求。因此， 研究团队提出可以通过任务分解的方式，将复杂任务拆解为易于处理的子任务，同时结合递归奖励建模逐步优化 。

此外，强模型生成的反馈和智能体（agent）辩论机制也为可扩展监督提供了新的可能性，减少了对人类参与的依赖。然而，这些方法仍然面临挑战，例如，如何构建可靠的反馈生成模型，以及如何高效整合人类与人工智能的监督能力。

最后，研究团队聚焦对齐评价这一环节。评价是衡量超级对齐效果的核心环节。研究团队指出，现有的基准数据集易受数据污染，且缺乏动态更新能力。因此， 评价体系需要包含动态构建的对抗性数据集，结合大语言模型自评能力以及通用评论生成模型，才能有效揭示超人类模型的弱点 。此外，还需发展自动化的对抗测试方法，以验证模型的对齐效果。

超级对齐实现框架：攻击者、学习者和批评者

研究团队构建出一个系统化的超级对齐框架， 通过攻击者（Attacker）、学习者（Learner）和批评者（Critic）三个模块来实现对齐优化 ：

图｜超级对齐概念框架。

其中， 攻击者模块负责为模型设计极具挑战性的对抗性任务，以发现其潜在问题 。研究团队通过模拟高难度场景，如数学推理、伦理决策或安全敏感任务，生成能够测试模型能力极限的查询。这些任务不仅暴露了模型的逻辑漏洞和行为偏差，也为后续优化提供了参考数据。

研究团队指出， 攻击者模块的核心目标是揭示模型的真实弱点，确保优化能够针对问题本质进行改进 。这种前沿方法确保了模型在面对最复杂场景时能够保持稳定和可靠。

在攻击者模块生成任务后， 学习者模块通过强化学习对模型进行优化

清华团队「超级对齐」新研究：如何定义？怎样实现？

正文

从学习视角定义「超级对齐」

三大关键研究问题

超级对齐实现框架：攻击者、学习者和批评者

请到「今天看啥」查看全文