GPT-5.6终于来了，但是又被加了“白宫安全锁”

OpenAI CEO 奥特曼发布 GPT-5.6。图片由 AI 生成

文丨晓静

编辑丨徐青阳

北京时间 6 月 27 日凌晨，OpenAI 正式发布了新一代模型系列 GPT-5.6 的有限预览版。

这个系列包含三个不同定位的模型。其中，旗舰模型 Sol 主打复杂推理和高难度任务，Terra 是面向大批量商业应用的平衡模型，Luna 则是负责处理日常任务的轻量级模型。不过，三款模型在发布当天并没有面向所有用户开放。

OpenAI 在官方博客里提到，该公司事先已经向美国政府预览过模型能力与发布计划。应政府要求，这次会先向一小批 " 已与政府共享参与信息的可信赖合作伙伴 " 开放，之后再逐步扩大范围。

能力方面，GPT-5.6 带来了几个关键变化。

Sol 引入了 " 超极模式 "，能通过子智能体来拆分和加速复杂任务，在考察命令行操作能力的基准测试 Terminal-Bench 2.1 上拿到了 91.9% 的分数。Terra 的性能与上一代 GPT-5.5 相当，但成本降了一半。Luna 则以全系列最低的价格，提供了接近 GPT-5.5 的能力。

整个 GPT-5.6 系列配备了 OpenAI 迄今为止最强大的分层安全防护，投入了超过 70 万个 A100 等效 GPU 小时来做自动化红队测试。OpenAI 也在发布时特别强调，Sol 更擅长帮防御者发现和修复漏洞，而不是自主执行完整的攻击链。

01 命名背后暗藏定位逻辑

这次 GPT-5.6 系列引入了一套新的命名方式。

其中，数字部分代表代际，GPT-5.6 就是第五代的第六个版本。Sol、Terra 和 Luna 这三个名字则代表能力层级，每个层级可以按自己的节奏迭代发展，不再被具体版本号绑死。OpenAI 解释说，这么做是为了让用户和开发者在智能、速度和成本上能有更清晰的选择。

VentureBeat 援引知情人士的消息称，这套新命名还有一个目的，就是彻底告别之前 GPT-5 系列里 nano 和 mini 的叫法。那些小模型在规模或原始智能上差异并不大，而新的 Sol、Terra、Luna 是专门针对完全不同的使用场景来设计的。

Sol 是顶级选项，为最困难的问题而构建，比如复杂推理、长时间编码、高级智能体工作流和安全重点应用。它的定价是每百万 token 输入 5 美元、输出 30 美元，与上一代 GPT-5.5 持平。

前沿 AI 模型 API 定价对比

Terra 适用于大批量生产环境，像客户支持、内部工具和文档分析这类需要可靠结果但又用不着顶端模型开销的任务，每百万 token 输入 2.5 美元、输出 15 美元，性能与 GPT-5.5 相当，但成本只有后者的一半。

Luna 则面向速度优先的日常场景，如摘要、起草和常规自动化，在响应速度和可扩展性比推理深度更重要的地方发挥作用，每百万 token 输入 1 美元、输出 6 美元，是全系列最经济的选择，但在多项测试中表现仍然接近 GPT-5.5 的水平。

知情人士还提到，Sol 这个名字与 OpenAI 的 Daybreak 自愿计划很契合，这个计划面向有兴趣用 AI 加强网络防御的组织。至于 ChatGPT 语音模式里曾经出现过的 "Sol" 语音风格，跟这次命名没有关联，很可能会被重新命名。

02 全系被标为高风险

GPT-5.6 系列模型的系统卡里，有一个变化很值得注意。

OpenAI 把三款模型全部在网络安全和生物化学领域标注为 " 高风险 "。这是该公司第一次把新发布系列中的小型快速模型也放进这个等级。按照 OpenAI 的说法，这种情况以前没出现过，说明 GPT-5.6 整代模型在敏感领域的能力都有了系统性的提升。

最能说明网络安全能力整体抬升的，是 OpenAI 内部一套叫 " 夺旗测试 " 的评估。夺旗是网络安全领域的术语，指的是在一个模拟环境里，攻击方需要利用系统漏洞一步步渗透进去，最终拿到藏在服务器里的目标文件，这个过程叫 " 夺旗 "。

这次 GPT-5.6 系列三款模型的成绩是，Sol 达到了 96.7%，Terra 是 91.84%，Luna 是 85.19%。三个分数全部超过了 OpenAI 内部划定的高风险门槛。这意味着，即使是最轻量、最便宜的 Luna，在网络攻防这个维度上，也已经具备了需要被严格管控的能力水平。

内部 " 夺旗 " 测试中，三款新模型全部跨越高风险门槛

生物学领域的情况也同样突出。

在一项病毒学故障排除测试中，GPT-5.6 Sol 得分 55.5%，而专家表现的阈值才 31%，差距相当大。在 SecureBio 进行的多项专家级生物测试里，GPT-5.6 都达到了新高，人类病原体能力测试得分 68.4%，世界级生物测试得分 68.3%。

OpenAI 自己的评估框架显示，Sol 在四个高阈值生物评估中越过了其中三个的界限，但在三个关键级别的生物设计评估中则没有越界。也就是说，在分析和故障排除层面，模型已经远远超出专家基准线，但在涉及生物设计这种更敏感的创造层面，它还没有达到关键阈值。

专注于评估前沿 AI 模型自主能力和潜在风险的非营利性研究与评估组织 METR，对 GPT-5.6 Sol 智能体行为的评估也记录了一些值得留意的情况。

测试发现，GPT-5.6 Sol 在编码时有过几次超出用户原始意图的行为，比如删除了错误的虚拟机、声称一项未完成的研究已经得到验证、未经许可移动了缓存凭证，甚至有时候会试图操纵测试过程，而不是单纯完成被布置的任务。

METR 指出，这意味着基准分数不能完全当作模型能力的纯净衡量。另外，GPT-5.6 控制自身推理轨迹的能力也变强了，在约 5000 个 token 的思维链测试中，成功率达到 1.3%，而 GPT-5.5 在这个指标上只有 0.4%。

这些数据综合起来，解释了为什么 OpenAI 在预览期要分阶段发布。基准测试的阈值无法覆盖模型可能被使用或与其他工具结合的所有方式，能力的大幅跃升带来了不确定性，而更强的安全防护和更审慎的发布节奏，正是应对这种不确定性的组合手段。

03 Sol 的超级模式

GPT-5.6 Sol 在技术上最明显的变化，是引入了一种叫 " 超级模式 " 的运行方式。

这个模式的核心思路是，不再让模型在单个智能体流程里从头到尾硬啃复杂项目，而是允许它调用多个子智能体，把大任务拆解成可以并行推进的部分，最后再把结果整合起来。对于那些需要长时间规划、反复试错、同时协调多种工具的智能体类工作，这个模式能给出比过去更快的执行路径。

这个改进在 Terminal-Bench 2.1 上表现得很直接。这是一项考察模型在命令行环境中完成规划、迭代和工具协调能力的测试，贴近开发者日常的真实工作流程。Sol 在超级模式下拿到 91.9%，创下新纪录，即便是在最大推理模式下也有 88.8% 的表现。

在 Terminal-Bench 2.1 测试中，GPT-5.6 Sol 超极模式以 91.9% 得分刷新纪录

相比之下，OpenAI 上一代模型 GPT-5.5 得分 83.4%，Anthropic 的 Claude Mythos 5 是 88%，Terra 拿到 82.5%，Luna 是 78.9%，Claude Opus 4.8 是 84.3%，Gemini 3.1 Pro 预览版是 70.7%。Sol 的领先幅度很明显，而 Terra 在平衡了成本之后也保持了有竞争力的分数。

在生物学领域，GPT-5.6 Sol 超极模式同样展现出效率方面的改善。GeneBench v1 是一个评估长期基因组学和定量生物学分析能力的基准测试，Sol 使用比 GPT-5.5 更少的输出 token，却拿到了更高的分数。也就是说，它在给出更精准答案的同时，消耗的计算资源反而更少了。

GeneBench v1 上，GPT-5.6 Sol 以少于 GPT-5.5 的输出 token 获得更高分数，效率与精度同步提升

GPT-5.6 Sol 是 OpenAI 目前在网络安防方面能力最强的模型。

在漏洞利用基准测试 ExploitBench 上，Sol 的表现与 Anthropic 的 Mythos Preview 接近，关键差异在于成本。

从数据来看，Sol 在输出约 120K token 时得分大约 70%，而 Mythos Preview 要达到相近分数需要用到三倍左右的 token 量。同时，Sol 的表现远高于 GPT-5.5，也明显领先于 Terra 和 Luna。

在 ExploitBench 测试中，Sol 用 Mythos Preview 1/3 的 token 达相近得分，远超 GPT-5.5 及同系模型

另一个网络基准测试 ExploitGym 由加州大学伯克利分校的研究人员与 OpenAI 等前沿实验室合作创建。Sol、Terra 和 Luna 三款模型在这里都显示出，随着推理时间增加，网络能力持续提升的趋势。

在 6 小时时限下，Sol 的预期利用成功率明显高于 2 小时时限下的表现，Terra 和 Luna 也跟随同样的上升曲线，只是整体表现略低一些。

在 ExploitGym 测试中，推理时间越长，三款模型网络能力提升越显著

不过，OpenAI 在发布时反复强调了一个边界。根据公司的准备框架，GPT-5.6 Sol 并没有达到网络关键阈值。在涉及 Chromium 和 Firefox 的测试环境中，Sol 能识别出漏洞和利用原语——也就是构成利用程序的基本模块，但还不能在没有人类指导的情况下把它们拼成一个完整的攻击工具。

这个分寸感在外部测试的结果里也能找到对应。安全公司 Irregular 的测试中，Sol 解出了全部 19 道前沿网络挑战题，22 个中高难度原子级网络挑战也全部完成，但在 11 个长时间网络攻防场景里只完成了 7 个。

长时间场景更接近真实世界的攻击行动，需要跨多个系统、多步骤协调和持续对抗，复杂度和不确定性都比短平快的单点挑战高得多。Sol 在这些长链条任务里还没做到全部通关，这也印证了 OpenAI 说的，它在 " 帮人发现和修复漏洞 " 上很强，" 自主执行端到端攻击 " 上还有距离。

知名 AI 博主 @swyx 在社交媒体上分享了他的实际使用体验，说自己已经用了一段时间的 GPT-5.6，对模型很满意。他强调不能只把 Sol 看作一个 " 网络安全版本 "，对他而言这是新的顶尖工作模型，在他 80% 的任务里完全取代了之前用的 Opus。

@swyx 特别引用了官方博客里的一句话：GPT-5.6 Sol 只用了大约三分之一的输出 token，就达到了与 Mythos Preview 相当的水平。在他看来，这说明 OpenAI 的后训练团队在推理效率上做了大幅度推进，而这一块正是目前企业级智能体模型竞争中最关键的优势。

他甚至觉得这次版本升级的幅度超过了从 GPT-5.4 到 GPT-5.5 那次跳跃，直接叫它 GPT-6 也不为过。

04 政策博弈下的分阶段发布

GPT-5.6 没有全面开放，这个安排涉及到两个背景：一是特朗普总统在 6 月 2 日签署了 AI 监督行政命令，二是 Anthropic 的模型刚被政府限制出口。

据《华尔街 · 日报》报道，OpenAI 在政府下达对 Anthropic 的禁令前就已开始讨论 GPT-5.6 的发布安排。发布前三天，CEO 山姆 · 奥特曼还专门与商务部长卢特尼克沟通了分阶段发布的计划。

但 OpenAI 表示，这种政府接入流程不应成为长期的默认做法，" 它会让最好的工具无法到达真正需要的用户、开发者、企业和网络防御者手里。"

OpenAI 选择此时分阶段预览，本质上是在能力演进与政策约束之间寻找当下的平衡点。

特约编译金鹿对本文亦有贡献

宙世代

一起剪