Anthropic提出工作回路追踪方法：用归因图解开大语言模型计算之谜

导语

AI 的 " 黑盒 " 问题一直困扰着研究者和用户——我们知道 ChatGPT、Claude 这些大模型很聪明，但却不知道它们是如何思考的。这就像看到一个天才学生总能给出正确答案，却无法理解他的解题思路。

在今年 3 月，Anthropic（Claude 模型的开发商）发布了一项重磅研究，首次让我们能够 " 看见 " 语言模型的思考过程。他们开发了一种名为 "Circuit Tracing"（工作回路追踪）的新方法，通过构建 " 替换模型 " 和 " 归因图 "，将原本不可见的神经网络计算过程可视化为清晰的计算图。这项技术的突破意义重大：研究人员不仅能追踪模型在处理特定问题时激活了哪些 " 神经元 "，还能看到信息是如何在不同层级间流动和处理的。更重要的是，Anthropic 已将相关工具开源，为 AI 安全性和可解释性研究打开了新的大门。

本文是这篇论文的翻译版本。

关键词：归因图，深度学习

星辰丨作者

孔德润丨译者

姚云志丨审核

论文题目：Circuit Tracing: Revealing Computational Graphs in Language Models

论文地址：

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

1. 介绍

2. 构建可解释的替代模型

3. 归因图

4. 全局权重

5. 效果评估

6. 生物

7. 局限性

8. 讨论

9. 相关工作

1. 介绍

深度学习模型通过一系列分布在多个计算单元（即人工 " 神经元 "）上的变换来生成输出。机制可解释性（mechanistic interpretability）这一研究方向试图用人类可理解的语言来描述这些变换的过程。到目前为止，我们团队（Anthropic）采用的是 " 两步走 " 的办法：第一步，识别特征（features）— 特征指的是模型在计算中使用的可被解释的构建模块；第二步，我们描述在这一过程中，或者说在这一" 工作回路 "（circuits）中，这些特征是如何相互作用，从而产生模型输出。

一个自然而然的做法是将模型中的原始神经元作为这些构建模块。采用这种方法，已有的研究在视觉模型中成功的识别出了一些有趣的工作回路。这些工作回路由有意义的视觉概念的神经元组成 [ 4 ] 。然而，模型神经元通常具有多义性（polysemantic）的特点，即它们同时对应着多个互不相关的概念。这种多义性被认为与叠加现象（superposition）有关 [ 5, 6, 7 ] ：模型需要表达的概念数量超过了神经元的数量，因此只能将表征 " 摊 " 在多个神经元上。这种神经元与语义概念之间的不匹配，已经成为了推进机制可解释性工作，特别是理解语言模型方面的重大障碍。

稀疏编码模型（sparse coding models）包括稀疏自编码器（sparse autoencoders，SAEs） [ 8, 9, 10, 11 ] 、转码器（transcoders） [ 12, 13, 14 ] 和跨编码器（crosscoders） [ 15 ] 。近年来，这样的稀疏编码模型已经成为识别叠加现象的有力工具。通过将模型激活分解为稀疏化的特征激活，这些特征在许多情况下能够对应到人类可理解的概念。尽管当前的稀疏编码方法在特征识别上仍不完美（参见第 7 节 " 局限性 "），但它们所产生的结果已经足够具有可解释性。这促使我们进一步研究由这些特征组成的工作回路。已有多位作者在这一方向上取得了初步成果 [ 16, 12, 17 ] 。

尽管研究由稀疏编码特征组成的工作回路在概念上听起来很简单，但其潜在的设计空间非常庞大。本文将介绍我们目前采用的方法。这些方法涉及若干关键的技术：

1. 转码器（Transcoders）-- 我们不采用稀疏自编码器，而是使用转码器的变体来进行特征提取 [ 12, 14 ] 。这种做法使我们能够构建一个具有可解释性的 "替代模型（replacement model）"。有了这一替代模型，我们便可以以此作为原始模型的代理进行研究。更重要的是，这种方法使我们得以分析特征之间的直接的相互作用。

2. 跨层机制（Cross-Layer）-- 我们的分析基于跨层转码器（cross-layer transcoders, CLT） [ 15 ] 。在该机制下，每个特征从某一层的残差流（residual stream）中读取信息，并对原始模型中所有后续的多层感知机层（MLP layers）输出产生贡献。这一设计极大地简化了所得工作回路结构。值得注意的是，在 50% ，也就是大约一半的案例中，我们完全可以用训练得到的 CLT 特征来替代原模型中的多层感知器 MLP，同时还能保持一致的输出结果。

3. 归因图（Attribution Graphs）-- 归因图描述了模型在面对某个特定提示词（prompt）时，如何一步步产生目标词（target token）输出的过程。该方法参考了 Dunefsky 等人的研究 [ 12 ] 。归因图中的节点表示激活特征、提示词中的词嵌入、重构误差以及输出对数值 ( output logit ) 。图中的边表示节点间的线性影响，因此每个特征的激活值等于其输入边的加权和（上限为激活阈值）（详见第 3 节 " 归因图 "）。

4. 特征间的线性归因 -- 对于给定的输入值，我们进行了系统设计来确保特征之间的直接相互作用是线性的。这样一来，归因操作就具有明确且可验证的数学定义。为实现这一目标，我们固定了注意力模式（attention patterns）和归一化因子（normalization denominators） [ 18 ] ，并通过转码器实现特征之间的线性作用。此外，特征之间也存在通过其他特征中介的间接交互关系，对应多步路径上的影响。

5. 剪枝（Pruning）-- 尽管我们提取的特征是稀疏的，但在特定提示下，仍有过多特征被激活，导致归因图难以解读。为了应对这一复杂性，我们采用图剪枝技术：识别那些对特定位置的模型输出贡献最大的节点和边（图剪枝技术是在处理图结构数据时，通过删除不重要的节点、边或连接，简化图结构，减少计算复杂度，同时尽量保持模型性能的技术 "）。通过这种方式，我们能够为任意输入提示构建稀疏、可解释的模型计算图。

6. 交互界面（Interface）-- 我们设计了一个交互式界面，用于浏览归因图及其包含的特征，帮助研究人员快速定位并高亮关键机制。

7. 验证（Validation）。因为我们使用的是替代模型，我们研究工作回路的方式是只能是间接的。替代模型的工作机制可能与原始模型不同。因此，我们需要验证归因图中所揭示机制的有效性是否能够体现在原始模型。为此我们进行了扰动实验：在特征方向上引入扰动，观察其是否会导致其他特征的激活变化（以及模型输出的变化）与归因图预测相符。我们发现，在多数提示下，扰动实验的定性结果基本与归因图一致，尽管仍存在部分偏差。

8. 全局权重（Global Weights）-- 虽然本文主要聚焦于特定提示下的归因图研究，但我们的方法同样支持对替代模型的权重（即 " 全局权重 "）进行直接分析，从而揭示适用于多个提示的通用机制。在第 4 节 " 全局权重 " 中，我们讨论了此方法面临的一些挑战，例如：由于权重之间的相互干扰，原始的全局权重往往不如归因图易于解释。但我们仍成功地应用全局权重理解了模型中实现 " 小数加法 " 的工作回路机制。

本文的目标是详细阐述并验证我们的方法论，并通过若干案例研究加以说明。

我们首先关注方法 -- 首先介绍如何搭建可解释的替代模型（见第 2 节 " 构建可解释的替代模型 "），以及如何构建归因图（见第 3 节 " 归因图 "）；随后，我们通过两个案例研究来展示方法的具体应用（见第 3.7 节 " 事实回忆案例研究 " 和第 3.8 节 " 加法案例研究 "）。接下来，我们探讨构建全局工作回路的不同方法，涵盖其面临的挑战及一些初步应对方案（见第 4 节 " 全局权重 "）。

随后，我们对跨层转码器 CLT 及其生成的归因图进行了详细的量化评估（见第 5 节 " 评估 "），展示了 CLT 在多个指标上相较于神经元及逐层转码器的帕累托改进。接着，我们简要介绍配套论文的内容，其中我们将本方法应用于 Claude 3.5 Haiku 模型的多种行为分析（见第 6 节 " 生物学 "）。之后我们讨论了方法上的若干局限性（见第 7 节 " 局限性 "），包括：注意力模式的影响、重构误差的干扰、抑制机制的识别难度，以及理解全局工作回路的挑战。克服这些局限性并揭示模型中更多潜在机制，是未来研究的重要方向。

最后，我们在第 8 节 " 讨论 " 中，对生成归因图的方法设计空间进行了更广泛的探讨。我们的方法具有模块化特点，其中部分环节可以与其他方法灵活组合，同时保留大部分优势。第 9 节 " 相关工作 " 则回顾了与本研究相关的文献。

我们配套的论文 " 大型语言模型的 " 生物学 "" 将本方法应用于 Claude 3.5 Haiku，研究其在多跳推理、规划行为与幻觉生成等方面的表现。

需要指出的是，训练一个跨层转码器需要一定的前期成本和精力，但这种投入在后续的工作回路解析中可以被逐步摊销。我们发现，这种方法显著提升了工作回路的可解释性和简洁性，因而在性价比上是值得的（参见开放权重模型的成本估算及与逐层转码器的性能对比）。不过，我们强调，研究者也可以选择逐层转码器甚至直接使用多层感知机器 MLP 的神经元，沿用本文的第 3 至第 8 步，依然可以获得有价值的见解。此外，未来也有可能出现比跨层转码器 CLT 更优秀的替代方法。

为了方便研究结果复现，我们提供了跨层转码器 CLT 的实现指南、剪枝方法的详细说明，以及支持交互式图分析界面的前端代码。

宙世代

一起剪

相关标签