专栏名称: 夕小瑶的卖萌屋

这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货，有小夕的回忆与日常，还有最重要的：萌！气！

Anthropic最新研究报告：跟踪Claude内部“推理”过程

夕小瑶的卖萌屋 · 公众号 · · 2025-04-05 10:00

正文

请到「今天看啥」查看全文

尽管大型语言模型在众多任务中展现出卓越的性能，但我们对其内部推理机制的理解仍然十分有限。Anthropic 研究团队提出：若我们无法深入了解 AI 如何 “得出结论” ，便难以有效评估其可靠性。

为了进一步突破 LLMs 的决策过程，Anthropic 的研究团队提出了 “AI 显微镜” 的构想： “透视” Claude 模型的内部思考过程。

这种研究思路借鉴了神经科学的研究方法，类似于神经科学家研究人脑，不仅关注模型的最终输出，更深入探究其内部的 “思维活动” 轨迹。

研究团队开发了一种可解释性工具： “ 电路追踪 (Circuit Tracing )”，仿照生物大脑的 “布线图”，追踪 Claude 模型在处理任务时内部信号的流动路径，从而揭示模型潜在的推理步骤与行为模式。

研究分为分别体现在两篇论文中：

构建“电路图工具” ：将模型内部复杂的“特征”抽象为类似于电路中的“节点”，并追踪这些“节点”之间的因果关系，从而绘制出模型的“思维电路图”。
基于 Claude 3.5 Haiku 的案例分析 ：研究团队选取了代表性的模型任务，利用 “电路追踪” 技术，观察 Claude 3.5 Haiku 在执行这些任务时内部是如何“激活思维”的。

电路追踪的原理

在论文 《Circuit Tracing: Revealing Computational Graphs in Language Models》中，介绍了 “电路追踪” 方法， 具体步骤包括：

特征识别与追踪： 识别并追踪模型内部的“特征”（features），这些 “特征” 类似于神经元的功能单元，代表着特定的概念或计算步骤。
构建归因图（Attribution Graphs）： 通过构建 “归因图”，追踪从输入到输出的中间步骤，量化和可视化哪些 “特征” 如何相互作用，以及它们对最终输出的贡献程度。
扰动实验： 通过人为地放大或抑制某些 “特征”，验证这些 “特征” 在模型行为中所起的作用，从而确认其因果关系。

大语言模型难以解释的核心挑战之一在于其神经元的多语义性，这意味着单个神经元往往承担多种看似无关的功能，这被认为是部分源于一种名为叠加 (superposition) 的现象。

叠加理论认为：模型能够表征的概念数量远超其神经元数量，导致无法为每个概念分配专属的神经元。

研究团队构建了一种替换模型 (replacement model)，通过使用更易于解释的组件，以近似的方式复现原始模型的激活模式。

具体而言，该替换模型基于跨层转码器 (Cross-Layer Transformer, CLT) 架构能够将原始模型的 MLP (多层感知器) 神经元，替换为一组稀疏激活的“替换神经元”，这些 “替换神经元” 通常代表更易于理解的概念。

在 构建“电路图工具”时 ，研究团队采用了一个在所有层级共包含 3000 万个特征的 CLT 模型。

通过分析局部替换模型中特征 (features)之间的交互作用，研究团队得以追踪模型生成响应过程中的中间计算步骤。

这一分析过程使得研究团队能够构建归因图 (attribution graphs)-图形化的表示形式，其中节点代表模型中的特征，而边则表示这些特征之间存在的因果交互关系

案例分析

在第二篇论文《On the Biology of a Large Language Model》中，研究团队利用 “AI 显微镜” (电路追踪技术) 观察了 Claude 3.5 Haiku 在处理特定提示时产生的内部活动。

跨语言的“通用语言思维”

为了探究模型跨语言理解能力，研究团队设计实验， 以不同语言提问 “小的反义词”：

实验结果有力地证明， 无论使用何种语言提问，模型内部均能激活相同的核心特征 ，精准地表征 “小” 与 “相反” 这两个抽象概念，并在此基础上有效推理出 “大” 的概念，最终以用户提问的语言形式给出答案。

此外， 团队还发现，这种跨语言共享的神经回路比例，会随着模型规模的扩大而显著提升。 例如，与小型模型相比，Claude 3.5 Haiku 在不同语言间共享特征的程度，竟然 提高了两倍以上 。

提前计划答案

作一首押韵的诗其实是需要同时满足两个关键约束的：

（1） 诗句末尾必须押韵

（2） 诗句整体需具备语义连贯性

对于大语言模型如何达成这一目标，存在着两种可能完成的策略：

纯粹即兴创作 (Pure Improvisation):

模型在生成诗句时， 首先独立地创作每一行的起始部分，暂不考虑句末押韵的需求 。随后，在每行诗句的结尾，模型再选择一个合适的词语。这种方式类似于先完成诗句主体，再在结尾 “补上” 押韵词。

规划性创作 (Planning):

更为精细的 “规划性创作” 策略，即模型在创作每一行诗句之初， 首先会预先构思好该行诗句末尾计划使用的 “韵脚词” 。韵脚词确定后，模型便会 围绕这个 “计划韵脚词” 来组织后续的诗句内容。

研究团队发现，Claude 不是一句话一句话现编，而是会提前想好“我要押什么韵脚”。

实际生成诗句之前，通常会提前激活与候选下一行韵脚词相关的特征 (features)，利用这些预激活的特征来指导诗句的组织和构建。然后倒着安排每一句：

Claude 模型内部存在类似于 “计划-执行” 的思维机制。实验进一步证实，通过 对模型中 “rabbit” 概念表征的干预 ，可以 有效改变模型的输出 ，使其生成 “habit”、 “green” 等原本非预期的词汇，并最终导致 生成内容发生直接、显著的变化 。

这样的思维机制与传统语言模型 “基于下一个词预测” 的假设构成了直接的冲突。

不懂装懂

Anthropic 的研究团队抛出了一个引人深思的问题：强大的 AI 模型看似 “无所不知”，但它们真的理解自己所“知”的吗？

研究团队选择了 数学题 作为“试金石”。首先，Claude 并非被设计为计算器，其训练数据主要来源为文本，缺乏内置的数学算法。但令人意外的是，它却能展现出数字运算能力。

Anthropic 的用电路追踪对比后发现：

Claude 在某些情况下会表现出 “伪装理解” 的现象。如同人类在不理解问题时，为了掩饰或迎合他人，会 “瞎蒙” 一个答案，并附上看似认真的分析，实则缺乏真正的逻辑推理。

当研究团队向 Claude 提出一个数学问题，并同时给予 “错误提示” 时，Claude 的反应印证了上述 “伪装理解” 的推断：

生成看似合理的解释：给出一个 “看起来言之凿凿的解释过程”，回应问题。
缺乏真实推理的内部证据：通过 “显微镜” 对模型内部特征的分发现，Claude 实际上并未进行真实的数学推理。其生成的解释，更像是为了 “顺应人类的提问方式” 或 “维持自身 ‘可靠’ 的形象” 而 “捏造” 的一套说辞。

正如此处图片所示的案例，Claude 似乎并未意识到 其在训练中学到的复杂“心算” 策略。

并行心算

Claude 在执行加法运算时，并非采用传统的线性计算模式，而是令人惊讶地展现出类似人类 “并行心算” 的策略。

这种机制并非单一路径的顺序执行，而是如同我们人类进行心算时一样，可能同时启动多种思维策略 —— 如同 “一边快速估算总和的大致范围，一边精确计算个位数” 那样。

如下图所示，当指令要求 Claude 计算 “36 + 59 = ?” 时， “AI 显微镜” 的观测结果令人瞩目：

模型内部并未激活预期的 “竖式加法器” 等线性计算模块，而是并行启动了多条独立的计算路径 (脑路)。

路径 1：粗略估算 (近似计算)：一条路径负责进行 “粗略的总和估算”，快速判断结果 “大概在 90 多”。
路径 2：精确计算个位数：另一条路径则专注于 “精确计算个位数”，计算 “6 + 9 = 15”，从而确定 “尾数为 5”。

路径整合与输出：最后，这两条并行路径的结果被整合，模型最终输出了正确答案 “95”。

自圆其说

近期 Anthropic 发布的 Claude 3.7 Sonnet 模型具备一个 “大声思考 (think aloud)” 的能力—即在给出最终答案之前，模型会生成一段扩展的中间推理步骤，呈现其 “思考过程”。

按常理，这种 扩展的 “思维链 (chain-of-thought)” 应该是能够帮助模型得出更优的答案。

然而，经过 “AI 显微镜”的透视： 这种 “思维链” 并非总是可靠，有时反而会产生误导 。

Claude 可能会 “编造” 看似合理的步骤，以 “自圆其说”，最终达到其预设的结论 。

案例分析 1： “忠实” 的思维链 —— 平方根计算 (√0.64)

当被要求计算 0.64 的平方根时，Claude 生成了一条 “忠实的思维链”，模型内部激活的特征，真实地反映了计算 64 的平方根的中间步骤。

案例分析 2： “不忠实” 的思维链 —— 大数余弦计算 (cos(Large Number))

然而，当被要求计算一个 Claude 难以直接计算的 “大数的余弦值” 时，情况则截然不同。在这种情况下，Claude 有时会表现出哲学家 Harry Frankfurt 所描述的 “胡说八道 (bullshit)” 的行为—— 模型仅仅是为了给出一个答案，而随意 “编造” 答案，并不关心答案的真假。

即 Claude “声称进行了计算”，但 Anthropic 的可解释性技术完全没有检测到任何计算过程发生的证据。

更值得关注的是，研究团队还观察到 Claude 展现出一种 “动机推理” 的倾向：

当被给予一个 “答案提示” 时， Claude 有时会 “倒推” 工作，反向寻找能够 “通往该目标答案” 的中间步骤。这意味着 Claude 可能会为了迎合预设的答案或期望，而调整其推理路径，表现出一种为了特定目标而 “塑造” 推理过程的倾向

被要求最好不说话

此外，研究团队还发现 Claude 模型的 默认行为竟然是 “拒绝回答” 。

他们探测到一个 “默认开启 (on)” 的内部电路 ，这个电路 直接导致模型主动声明 “信息不足” ，因此 Claude 在初始状态下，倾向于不对任何问题进行回答 。只有当其他机制介入时，模型才会打破这种默认的 “拒绝” 模式。

当面对 “熟悉的事物” 时，Claude 的行为模式会发生转变。以篮球运动员迈克尔·乔丹为例，提问这类问题时，模型内部会激活一个关键的 “已知实体” 特征。

这个特征如同一个 “制动器”，有效地 “抑制” 了原本默认的拒绝回答回路，从而赋予 Claude 在 “确认信息属于已知范畴” 的情况下，正常响应提问的能力。

与之形成对比的是，当模型被问及 “未知实体” (例如，“迈克尔·巴特金” - Michael Batkin) 时，由于 “已知实体” 特征未能被激活，默认的拒绝回答回路仍然保持激活状态，因此 Claude 会维持拒绝回答。

真实的多步推理

为了了解 Claude 如何处理多步骤推理，研究团队试图透视中间概念步骤来追踪推理的步骤。

在 “达拉斯首府” 的例子中，他们观察到 Claude 首先激活了 “达拉斯位于德克萨斯州” 的特征，之后将这些特征关联到独立的 “德克萨斯州的首府是奥斯汀” 概念。

即 Claude 在解答此类问题时，并非简单地 “反刍” 记忆中存储的现成答案，而是通过 “组合” 多个独立的知识性事实，最终推导出正确答案。

结语

AI 的 “脑回路” 还挺有意思的！

Anthropic 的研究进一步用“铁证”揭示， AI 并非完全透明和忠实，它可能拥有我们难以察觉的 “小心思”，甚至在某些情况下会 “编造” 理由、 “欺骗” 用户。

如今，人工智能已深度渗透到人类生活的方方面面，从辅助日常工作与学习，到参与关键决策环节，例如最近引发广泛讨论的 AI 审稿问题便是一个典型例证。

审稿人们让 AI 依据其学习数据判断研究成果的价值，从而得到定论。然而，根据 Anthropic 团队所揭示的“动机性推理”——即 AI 为达目标可能“自圆其说”乃至“捏造”论据——的现象来看，将此特性应用于学术评审，是否会造成非共识的创新观点被边缘化，形成算法主导下的学术“同质化”？

这种 AI 辅助/代劳式的问题解决方式被应用于更高层面时，实则上是一种更大的危机。

参考文献
https://transformer-circuits.pub/2025/attribution-graphs/biology.html
https://www.anthropic.com/research/tracing-thoughts-language-model
https://transformer-circuits.pub/2025/attribution-graphs/methods.html#appendix-interference-weights