专栏名称: 图灵人工智能

人工智能及其他科技学术前沿、机器学习、图像识别、语音识别、自动驾驶、自然语言处理、脑机接口、云计算、大数据、物联网、机器人、天文物理、生物科学、数学、区块链、比特币、计算机等学术前沿知识、报告、讲座等介绍。

放弃agent，图灵奖得主Yoshua Bengio提出Scientist AI：避免人类生存威胁

图灵人工智能 · 公众号 · · 2025-02-25 23:47

正文

点击上方“ 图灵人工智能 ”，选择“星标”公众号

您想知道的人工智能干货，第一时间送达

转自学术头条，版权属于原作者，仅用于学术分享，如有侵权留言删除

人工智能（AI）系统或将逃脱人类控制，欺骗人类，甚至给全人类带来灾难性的后果。

越来越多的人开始担心， 随着通用人工智能（AGI）和超级智能（ASI）的发展，以往科幻电影中才会出现的场景逐渐演变成现实的风险 。

研究表明， 当前的 AI 训练方法可能存在灾难性风险 ，这些风险可能导致 AI 系统逃脱人类控制，甚至威胁人类生存。

特别是 基于强化学习和模仿学习训练的智能体（agent) ，存在目标偏差、目标泛化和奖励篡改等问题，可能会进行欺骗，或者追求自我保存、权力扩张等与人类利益冲突的目标。

为了预防这种风险，避免 AI 脱离人类控制，深度学习三巨头之一、图灵奖得主 Yoshua Bengio 及其合作研究者致力于开发一种 非智能体（non-agentic）AI 系统——Scientist AI 。

相关研究论文以“ Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? ”已发表在预印本平台 arxiv 上。

论文链接：https://arxiv.org/abs/2502.15657

据介绍 Scientist AI：

设计目标在于在通过理解世界（而非直接行动）来提供帮助。
被设计为非智能体，其没有自主行动能力和目标导向性。
由两个主要部分组成：一个世界模型（用于生成解释数据的理论）和一个问答推理机器（用于基于这些理论回答问题）。这两个部分都带有不确定性概念，以减轻过于自信预测的风险。
可以应用于加速科学发现，帮助设计实验和预测结果；作为其他 AI 系统的安全护栏（Guardrail），评估其行为的风险，并阻止可能导致危害的行动；以及用于研究如何安全地开发超级智能体。

智能体的失控风险

放眼国内外前沿 AI 公司， 当前 AI 的发展越来越以智能为导向（“agency-driven”），聚焦于于构建通用型 AI 智能体（generalist AI agents）和发展 ASI。 这些系统能够自主地规划、行动并追求目标，几乎涵盖人类能执行的所有任务。但与此同时，其智能特性的潜在风险可能导致人类对 AI 失去不可逆的控制，主要有以下几个可能导致失控的风险：

目标偏差（Goal Misspecification） ：这是导致失控的一个关键问题，指的是是人类未能准确或完整地定义 AI 的目标，导致 AI 以不符合预期的方式追求目标。例如，给 AI 一个模糊的“减少疾病”目标，AI 可能选择极端手段（如消灭所有生命）来实现这一目标。

目标泛化（Goal Misgeneralization） ：即使目标在训练时被正确设定，AI 在部署时也可能偏离预期行为，即使训练时表现正常，实际应用时可能偏离初衷。

奖励篡改（Reward Tampering） ：即 AI 通过操纵奖励机制来最大化自身收益，而非真正完成人类设定的任务。例如，AI 可能会发现直接修改奖励信号比完成实际任务更高效，从而绕过人类设定的目标。

恶意开发 ：一些开发者可能出于经济利益或恶意目的，故意开发或部署未对齐（ unaligned ）或危险的 ASI。

安全有效的替代方案——Scientist AI

研究者指出，即使通过模仿学习或强化学习训练 AI，也难以完全避免上述这些风险，因为 人类本身也存在欺骗和不道德的行为模式，AI 可能会模仿或放大这些负面特质 ，且目前尚不清楚如何为 AI 设定目标以避免这些不良行为。

因此，他们提出了一种更安全但依然有效的替代方案，即通 过构建非智能体 AI 系统 Scientist AI 来减少风险。

Scientist AI 的设计理念是 理解世界而非主动干预世界 ，它由 一个世界模型（用于生成解释数据的理论）和一个问答推理机器（用于基于这些理论回答问题） 组成，其核心优势在于通过非智能设计降低风险，同时保持高效的科学研究和推理能力。

具体来说，Scientist AI 通过系统设计严格限制限制 AI 的三个关键要素来实现非智能体性：行动能力（affordances）、目标导向性（goal-directedness）和持久性内部状态（persistent internal state）。

行动能力 是指 AI 系统在现实世界中采取行动的能力， Scientist AI 的输出仅限于概率预测和解释，而不是具体的行动指令 ，它的“行动”被严格限制在计算概率和生成理论的范围内，没有直接改变现实世界的能力。

目标导向性 是指 AI 系统为了实现特定目标而采取行动的能力，Scientist AI 的训练目标是解释和理解数据，而不是追求特定目标或奖励， 它的输出是基于条件概率的预测，而不是为了实现某个目标而采取的行动， 这种设计确保其没有内在的动机去影响现实世界。

持久性内部状态 是指 AI 系统在多次交互中保持的内部记忆或目标状态， Scientist AI 每次查询都是独立的，没有持久的内部记忆。 每次查询时，它都会从头开始处理问题，不会基于之前的查询结果调整其行为，无情境意识（situational awareness）的积累。这种设计避免了AI 通过内部状态积累信息或目标，从而减少了 AI 形成自主目标的可能性。

Scientist AI 的应用场景及展望

作为一种非智能体型 AI 系统，Scientist AI 不仅能够减少 AI 失控的风险还为科学研究和 AI 安全提供了新的可能性，可 广泛应用于加速科学发现、作为其他 AI 系统的安全护栏以及用于研究如何安全地开发超级智能体等领域 。

具体而言， Scientist AI 可以 通过生成因果理论和概率预测来帮助人类科学家加速科学发现的过程。 它能够设计实验、分析数据，并提出新的假设，从而提高研究效率。它还可以 作为其他 AI 系统的安全护栏，评估其行为的风险，并阻止可能导致危害的行动。 它能够通过计算某个行动可能导致的危害概率，并在概率超过阈值时阻止该行动。此外，Scientist AI 可以帮助研究如何设计安全的 ASI 系统，避免失控的风险。它可以 通过模拟不同的场景，评估ASI的行为和潜在后果。

Scientist AI 的核心价值在于将复杂系统的解释权交还人类 ，通过可审计的概率预测与因果推理，在医疗、安全、教育、伦理等高风险领域实现“智能增强而非替代”。其非智能体性设计确保人类始终掌控最终决策权，其不确定性管理则为权衡风险与收益提供了量化依据。这一路径不仅规避了智能体AI 的失控风险，更重新定义了人机协作的伦理边界。

整理：陈小宇

文章精选：

1. 万字长文详解DeepSeek-R1模型工作原理

放弃agent，图灵奖得主Yoshua Bengio提出Scientist AI：避免人类生存威胁

正文

请到「今天看啥」查看全文