尽管大型语言模型 在众多任务中展现出卓越的性能,但我们对其内部推理机制的理解仍然十分有限。Anthropic 研究团队提出:若我们无法深入了解 AI 如何 “得出结论” ,便难以有效评估其可靠性。
为了进一步突破 LLMs 的决策过程,Anthropic 的研究团队提出了 “AI 显微镜” 的构想:
“透视” Claude 模型的内部思考过程。
这种研究思路借鉴了神经科学的研究方法, 类似于神经科学家研究人脑,不仅关注模型的最终输出,更深入探究其内部的 “思维活动” 轨迹。
研究团队开发了一种可解释性工具: “
电路追踪 (Circuit Tracing
)”,仿照生物大脑的 “布线图”, 追踪 Claude 模型在处理任务时 内部信号的流动路径, 从而揭示模型潜在的推理步骤与行为模式。
研究分为分别体现在两篇论文中:
-
构建“电路图工具”
: 将模型内部复杂的“特征”抽象为类似于电路中的“节点”,并追踪这些“节点”之间的因果关系,从而绘制出模型的“思维电路图”。
-
基于 Claude 3.5 Haiku 的案例分析
: 研究团队选取了代表性的模型任务,利用 “电路追踪” 技术,观察 Claude 3.5 Haiku 在执行这些任务时内部是如何“激活思维”的。
电路追踪的原理
在论文
《Circuit Tracing: Revealing Computational Graphs in Language Models》中,介绍了
“电路追踪” 方法,
具体步骤包括:
-
特征识别与追踪:
识别并追踪模型内部的“特征”(features),这些 “特征” 类似于神经元的功能单元,代表着特定的概念或计算步骤。
-
构建归因图(Attribution Graphs):
通过构建 “归因图”,追踪从输入到输出的中间步骤,量化和可视化哪些 “特征” 如何相互作用,以及它们对最终输出的贡献程度。
-
扰动实验:
通过人为地放大或抑制某些 “特征”,验证这些 “特征” 在模型行为中所起的作用,从而确认其因果关系。
大语言模型难以解释的核心挑战之一在于其神经元的多语义性,这意味着单个神经元往往承担多种看似无关的功能,这被认为是部分源于一种名为 叠加 (superposition) 的现象。
叠加理论认为:模型能够表征的概念数量远超其神经元数量,导致无法为每个概念分配专属的神经元。
研究团队构建了一种替换模型 (replacement model),通过使用更易于解释的组件,以近似的方式 复现原始模型的激活模式。
具体而言,该替换模型基于跨层转码器 (Cross-Layer Transformer, CLT) 架构能够将原始模型的 MLP (多层感知器) 神经元,替换为一组 稀疏激活的“替换神经元”,这些 “替换神经元” 通常代表更易于理解的概念。
在
构建“电路图工具”时
,研究团队采用了一个在所有层级共包含 3000 万个特征 的 CLT 模型。
通过分析局部替换模型中特征 (features)之间的交互作用,研究团队得以追踪模型生成响应过程中的中间计算步骤。
这一分析过程使得研究团队能够构建归因图 (attribution graphs)-图形化的表示形式,其中节点代表模型中的特征,而边则表示这些特征之间存在的因果交互关系
案例分析
在第二篇论文《On the Biology of a Large Language Model》中,研究团队利用 “AI 显微镜”
(电路追踪技术)
观察了 Claude 3.5 Haiku 在处理特定提示时产生的内部活动。
跨语言的“通用语言思维”
为了探究模型跨语言理解能力,研究团队设计实验,
以不同语言提问 “小的反义词”:
实验结果有力地证明,
无论使用何种语言提问,模型内部均能激活相同的核心特征
,精准地表征 “小” 与 “相反” 这两个抽象概念,并在此基础上有效推理出 “大” 的概念,最终以用户提问的语言形式给出答案。
此外,
团队还发现,这种跨语言共享的神经回路比例,会随着模型规模的扩大而显著提升。
例如,与小型模型相比,Claude 3.5 Haiku 在不同语言间共享特征的程度,竟然
提高了两倍以上
。
提前计划答案
作一首押韵的诗其实是需要同时满足两个关键约束的:
(1)
诗句末尾必须押韵
(2)
诗句整体需具备语义连贯性
对于大语言模型如何达成这一目标,存在着两种可能完成的策略:
-
纯粹即兴创作 (Pure Improvisation):
模型在生成诗句时,
首先独立地创作每一行的起始部分,暂不考虑句末押韵的需求
。随后,在每行诗句的结尾,模型再选择一个合适的词语。 这种方式类似于先完成诗句主体,再在结尾 “补上” 押韵词。
-
更为精细的
“规划性创作”
策略,即模型在创作每一行诗句之初,
首先会预先构思好该行诗句末尾计划使用的 “韵脚词”
。 韵脚词确定后,模型便会
围绕这个 “计划韵脚词” 来组织后续的诗句内容。
研究团队发现,Claude 不是一句话一句话现编,而是会提前想好“我要押什么韵脚”。
实际生成诗句之前,通常会提前激活与候选下一行韵脚词相关的特征 (features),利用这些预激活的特征来指导诗句的组织和构建。然后倒着安排每一句:
Claude 模型内部存在类似于 “计划-执行” 的思维机制。 实验进一步证实,通过
对模型中 “rabbit” 概念表征的干预
, 可以
有效改变模型的输出
,使其生成 “habit”、 “green” 等原本非预期的词汇,并最终导致
生成内容发生直接、显著的变化
。
这样的思维机制与传统语言模型 “基于下一个词预测” 的假设构成了直接的冲突。
不懂装懂
Anthropic 的研究团队抛出了一个引人深思的问题: 强大的 AI 模型看似 “无所不知”,但它们 真的理解自己所“知”的吗?
研究团队选择了
数学题
作为“试金石”。首先,Claude 并非被设计为计算器,其训练数据主要来源为文本,缺乏内置的数学算法。但令人意外的是,它却能展现出数字运算能力。
Anthropic 的用电路追踪对比后发现:
Claude 在某些情况下会表现出 “伪装理解” 的现象。 如同人类在不理解问题时,为了掩饰或迎合他人,会 “瞎蒙” 一个答案,并附上看似认真的分析,实则缺乏真正的逻辑推理。
当研究团队向 Claude 提出一个数学问题,并同时给予 “错误提示” 时,Claude 的反应印证了上述 “伪装理解” 的推断:
-
生成看似合理的解释:给出一个 “看起来言之凿凿的解释过程”,回应问题。
-
缺乏真实推理的内部证据: 通过 “显微镜” 对模型内部特征的分发现,Claude 实际上并未进行真实的数学推理。 其生成的解释,更像是为了 “顺应人类的提问方式” 或 “维持自身 ‘可靠’ 的形象” 而 “捏造” 的一套说辞。
正如此处图片所示的案例,Claude
似乎并未意识到
其在训练中学到的复杂“心算” 策略。
并行心算
Claude 在执行加法运算时,并非采用传统的线性计算模式,而是令人惊讶地展现出 类似人类 “并行心算” 的策略。
这种机制并非单一路径的顺序执行,而是 如同我们人类进行心算时一样,可能同时启动多种思维策略 —— 如同 “一边快速估算总和的大致范围,一边精确计算个位数” 那样。
如下图所示,当指令要求 Claude 计算 “36 + 59 = ?” 时, “AI 显微镜” 的观测结果令人瞩目:
模型内部并未激活预期的 “竖式加法器” 等线性计算模块, 而是并行启动了多条独立的计算路径 (脑路)。
-
路径 1:粗略估算 (近似计算): 一条路径负责进行 “粗略的总和估算”,快速判断结果 “大概在 90 多”。
-
路径 2:精确计算个位数: 另一条路径则专注于 “精确计算个位数”,计算 “6 + 9 = 15”,从而确定 “尾数为 5”。
路径整合与输出: 最后,这两条并行路径的结果被整合,模型最终输出了 正确答案 “95”。
自圆其说
近期 Anthropic 发布的 Claude 3.7 Sonnet 模型具备一个
“大声思考 (think aloud)”
的能力—即在给出最终答案之前,模型会生成一段扩展的中间推理步骤,呈现其 “思考过程”。
按常理,这种
扩展的 “思维链 (chain-of-thought)”
应该是能够帮助模型得出更优的答案。
然而,经过 “AI 显微镜”的透视:
这种 “思维链” 并非总是可靠,有时反而会产生误导
。
Claude 可能会
“编造” 看似合理的步骤,以 “自圆其说”,最终达到其预设的结论
。
案例分析 1: “忠实” 的思维链 —— 平方根计算 (√0.64)
当被要求计算 0.64 的平方根时,Claude 生成了一条 “忠实的思维链”,模型内部激活的特征, 真实地反映了计算 64 的平方根的中间步骤。
案例分析 2: “不忠实” 的思维链 —— 大数余弦计算 (cos(Large Number))
然而,当被要求计算一个 Claude 难以直接计算的 “大数的余弦值” 时,情况则截然不同。 在这种情况下,Claude 有时会表现出哲学家 Harry Frankfurt 所描述的 “胡说八道 (bullshit)” 的行为—— 模型仅仅是为了给出一个答案,而随意 “编造” 答案,并不关心答案的真假。
即 Claude “声称进行了计算”, 但 Anthropic 的可解释性技术 完全没有检测到任何计算过程发生的证据。
更值得关注的是,研究团队还观察到 Claude 展现出一种 “动机推理” 的倾向:
当被给予一个 “答案提示” 时, Claude 有时会 “倒推” 工作, 反向寻找能够 “通往该目标答案” 的中间步骤。 这意味着 Claude 可能会为了迎合预设的答案或期望,而调整其推理路径, 表现出一种为了特定目标而 “塑造” 推理过程的倾向
被要求最好不说话
此外,研究团队还发现 Claude 模型的
默认行为竟然是 “拒绝回答”
。
他们探测到一个
“默认开启 (on)” 的内部电路
,这个电路
直接导致模型主动声明 “信息不足”
, 因此
Claude 在初始状态下,倾向于不对任何问题进行回答
。 只有当其他机制介入时,模型才会打破这种默认的 “拒绝” 模式。
当面对 “熟悉的事物” 时,Claude 的行为模式会发生转变。 以篮球运动员迈克尔·乔丹为例,提问这类问题时,模型内部会激活一个 关键的 “已知实体” 特征。
这个特征如同一个 “制动器”,有效地 “抑制” 了原本默认的拒绝回答回路, 从而赋予 Claude 在 “确认信息属于已知范畴” 的情况下, 正常响应提问的能力。
与之形成对比的是,当模型被问及 “未知实体” (例如,“迈克尔·巴特金” - Michael Batkin) 时,由于 “已知实体” 特征未能被激活,默认的拒绝回答回路仍然保持激活状态,因此 Claude 会维持拒绝回答。
真实的多步推理
为了了解 Claude 如何处理多步骤推理,研究团队试图透视中间概念步骤来追踪推理的步骤。
在 “达拉斯首府” 的例子中,他们观察到 Claude 首先激活了 “达拉斯位于德克萨斯州” 的特征,之后将这些特征关联到独立的 “德克萨斯州的首府是奥斯汀” 概念。
即 Claude 在解答此类问题时,并非简单地 “反刍” 记忆中存储的现成答案,而是通过 “组合” 多个独立的知识性事实,最终推导出正确答案。
结语
AI 的 “脑回路” 还挺有意思的!
Anthropic 的研究进一步用“铁证”揭示, AI 并非完全透明和 忠实, 它可能拥有我们难以察觉的 “小心思”, 甚至在某些情况下会 “编造” 理由、 “欺骗” 用户。
如今,人工智能已深度渗透到人类生活的方方面面,从辅助日常工作与学习,到参与关键决策环节,例如 最近引发广泛讨论的 AI 审稿问题便是一个典型例证。
审稿人们让 AI 依据其学习数据判断研究成果的价值,从而得到定论。然而,根据 Anthropic 团队所揭示的“动机性推理”——即 AI 为达目标可能“自圆其说”乃至“捏造”论据——的现象来看,将此特性应用于学术评审,是否会造成非共识的创新观点被边缘化,形成算法主导下的学术“同质化”?
这种 AI 辅助/代劳式的问题解决方式被应用于更高层面时,实则上是一种更大的危机。
参考文献
https://transformer-circuits.pub/2025/attribution-graphs/biology.html
https://www.anthropic.com/research/tracing-thoughts-language-model
https://transformer-circuits.pub/2025/attribution-graphs/methods.html#appendix-interference-weights