刚小步快跑了一波 GPT 5.1,主打让大模型说人话,OpenAI 又在可解释性上做文章了。
真的是 paper 的那种。

论文公开了 OpenAI 内部一种训练小模型的新方法,能让模型的内部机制更容易被人类理解,即更具可解释性。
OpenAI 自己是这样介绍的:
ChatGPT 背后的语言模型具有复杂且时长令人惊讶的结构,我们尚未完全了解它们是如何工作的。
这种方法有助于我们缩小其中的差距。

简单来说,在这项研究中,OpenAI 研究员们的核心思路是:训练神经元连接少、但神经元数量多的稀疏模型,让神经网络变得简单,也更容易理解。
如果你对模型可解释性感兴趣,这篇论文值得一读。
而对于 OpenAI 的难得 open,还有不少网友关心:那么新的小模型系列要来了吗?

通过稀疏模型理解神经网络
来看具体研究内容。
OpenAI 研究员们认为,推理模型通过思维链展现出的可解释性在短期内非常有价值,能让我们捕捉到模型的 " 欺骗 " 等行为。但完全依赖这一特性显然不太可靠,随着时间的推移,这种策略也可能会失效。
想要更本质地理解模型机制,还是需要对模型的计算过程进行完全逆向工程。
问题在于,从复杂密集网络入手,难度非常大:每个神经元都与其他数千个神经元相连,不同的神经元又执行着许多不同的功能,这让理解它们看上去几乎不可能。
那么,能否训练一个拥有很多神经元,但每个神经元只有几十个连接的模型,来帮助人们理解模型机制呢?
基于这一核心思路,OpenAI 的研究人员训练了一个小模型:采用的还是现代语言模型的基础架构(类似 GPT-2),只做了一个小小的改动——
强制将模型的大部分权重设为 0。

评估可解释性
有了这个稀疏模型,下一步,研究人员的目标是,找出模型在每一项任务中的 "回路(circuit)"。

所谓 " 回路 ",是指模型能精准完成特定任务的最小计算单元。
论文将其定义为一个由节点(nodes)和边(edges)组成的图。
回路的规模可以通过节点和边的数量来衡量,论文将回路的边数几何平均值作为解释性的量化指标。
为了评估模型的可解释性,研究人员设计了一系列简单的算法任务,对于每个任务,都将模型精简到能够完成任务的 " 最小回路 "。
举个例子:
任务:在 Python 中,’ hello ’必须以单引号结尾,"hello" 必须以双引号结尾。模型可以通过记住字符串开头使用的引号类型,预测字符串结尾应使用单引号还是双引号,在结尾处自动补全字符串。
得到的回路长这样:

可以看到,该回路仅使用 5 个残差通道、第 0 层的两个 MLP 神经元,以及第 10 层的一个注意力查询键通道和一个值通道。
流程是:(1)将单引号编码到一个残差通道中,将双引号编码到另一个残差通道中;(2)使用 MLP 层将编码结果转换为两个通道:一个用于检测任意引号,另一个用于区分单引号和双引号;(3)使用注意力机制忽略中间的 token,找到前一个引号,并将其类型复制到最后一个 token;(4)预测匹配的结尾引号。
论文还研究了一些更复杂的行为,比如变量绑定等。这些行为的回路更难完全解释,但仍可以得出相对简单的部分解释,以预测模型的行为。

他们还发现:通过训练更大、更稀疏的模型,可以生成功能越来越强大、回路却越来越简单的模型。
这表明,这一方法有可能扩展到理解更复杂的行为。

不过,研究人员也强调,这项工作仍处于早期:稀疏模型比前沿模型小得多,并且即使是稀疏模型,计算过程也仍有很多 " 黑盒 " 的部分。
另外,目前稀疏模型的训练效率比较低。他们认为有两种途径来解决:
一是从现有的密集模型中提取稀疏回路,而不是从头开始训练稀疏模型。
二是开发更高效的模型训练技术,以提高模型的可解释性。
" 跨界 " 研究团队
作者一共有 6 位。
通讯作者为 Leo Gao,研究方向是 AGI 对齐,曾参与过 GPT-Neo、GPT-4 的研究。论文被引数 3.5w+,h-index 为 19。
他曾是 Ilya 超级对齐团队成员。在 Ilya 领导 OpenAI 超级对齐团队期间,两人合作发表了一系列论文和技术博客。

Achyuta Rajaram,还在 MIT 学物理,是 OpenAI 实习生。可解释性研究之外,兴趣是解谜游戏、下棋和撸猫。
Jacob Coxon,毕业于剑桥大学三一学院,2023 年加入 OpenAI。在 2016 年和 2017 年,他分别获得了两届 IMO 的银牌和铜牌。
Soham V. Govande,来自斯坦福,正在攻读计算机科学 AI 方向学士学位和系统方向硕士学位。加入 OpenAI 之前,还曾在英伟达实习。
Bowen Baker,OpenAI 多智能体团队研究科学家,2017 年就加入了 OpenAI,曾参与 OpenAI o1 的研发。
Dan Mossing,本科毕业于普林斯顿大学物理专业,后于加州大学伯克利分校取得生物物理学博士学位。

一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止!点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,最后时刻一起冲刺
一键关注 点亮星标
科技前沿进展每日见

