钛媒体APP 5小时前
GPT-5.6:最强的模型,最窄的门
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

最强的模型已经造出来了,但你可能暂时用不上。

北京时间 6 月 27 日凌晨(美东时间 6 月 26 日周五),OpenAI 发布了 GPT-5.6。按照以往几年的惯例,这应该是一个闪光灯亮起、Altman 微笑宣布 " 现在所有人都可以使用 " 的时刻。但这次没有。没有 ChatGPT 直接上线,没有全球开发者 API 开放,甚至没有一场面向公众的发布会。

取而代之的是一封写好了地址的邀请函,收件人大约 20 个,且每一个都必须由美国政府点头同意。两周前,另一家头部 AI 公司 Anthropic 的最新模型 Fable 5 在发布仅 3 天后被美国商务部一纸信函全球关停。两个行业巨头,两条完全相反的应对路径,却撞上了同一堵墙。

GPT-5.6 的故事,既是关于一个模型有多强的故事,也是关于一道门正在如何关上的故事。

屠榜者

GPT-5.6 不是一个模型,是一个家族。OpenAI 这次抛弃了 Pro、Mini 那套老命名,端出三个以天文学命名的型号:Sol(太阳)、Terra(大地)、Luna(月亮)。听起来像一个浪漫的产品宇宙,但它其实是行业里早已成熟的三层产品分层:旗舰负责能力上限,均衡款负责日常任务,轻量款负责速度和成本。

在 Terminal-Bench 2.1 这个目前最能衡量 AI 端到端编程能力的基准测试上,GPT-5.6 Sol 在 ultra 模式下跑出了 91.9% 的得分,拿下所有已公开模型的最高分。这个测试考的不是写一段函数,而是让模型在命令行环境里理解问题、拆解步骤、调用工具、运行命令、检查结果、出错再改,直到任务完成,更接近真实开发流程而非考试答题。

作为参照,两周前 Anthropic 刚发布的 Claude Mythos 5 是 88.0%,Fable 5 是 84.3%。也就是说,Mythos 5 的榜首只坐了 17 天。即便 Sol 关掉 ultra 只用 max 模式,也有 88.8%,单凭这个数字就已经超过了 Anthropic 两个最新旗舰的全部分数。

但真正让竞争对手紧张的,不是分数本身,而是效率。

在 ExploitBench 这个更接近真实漏洞利用场景的网络安全评估中,Sol 的表现几乎打平了 Anthropic 此前 " 强到不敢公开发布 " 的 Mythos Preview,但只消耗了约三分之一的输出 token。更少的 token 意味着更简洁的推理路径、更少的试错绕路,也意味着实际调用成本更可控。在 CTF 夺旗赛中,Sol 的命中率高达 96.7%,几乎触顶。OpenAI 反复向外界传递同一个信息:我们不仅跑得最快,而且跑得最省力。

这种效率优势背后是两项新机制。

第一个叫max reasoning effort,可以理解为 " 最大推理强度 ":给 Sol 更多时间和更深长的推理链来处理那些不能靠第一反应解决的复杂任务。

第二个叫ultra mode,这是更有想象力的设计。Sol 不再是一个模型独立思考,而是自动将复杂任务拆分、启动多个子智能体并行处理、再汇总结果。如果说 max 是 " 让一个人想更久 ",ultra 就是 " 让这个人召集一支团队分头干活 "。关键区别在于,Anthropic 的 Agent Teams 需要人来设计协作方式,而 ultra 是模型自己完成任务拆解和协调。Terminal-Bench 的 SOTA 成绩正是 ultra 模式跑出来的。

三层定价同样值得细看。

Sol 对齐上一代 GPT-5.5 标准版定价,输入 5 美元、输出 30 美元每百万 token,能力却跃升了一个代际。Terra 砍半到 2.5 美元和 15 美元,OpenAI 直接把它定位为 "GPT-5.5 级别能力,一半价格 ",在 Terminal-Bench 上拿到 84.3%,与 Claude Fable 5 持平。Luna 压到 1 美元和 6 美元,只有 GPT-5.5 价格的五分之一,专攻批量摘要、文本分类这些高并发低延迟的大规模部署场景。

过去几年 OpenAI 的策略可以总结为一句话:做一个最强的模型,让所有人用它。这次跟进 Anthropic 的 Opus/Sonnet/Haiku 三层架构,本质上是承认了同一个商业现实:不同客户需要不同的模型,一个旗舰无法同时覆盖追求极限性能的研究机构、精打细算的企业客户,以及只要够快够便宜的规模化应用。

考虑到 OpenAI 已秘密提交 IPO 申请、目标估值可能在 1 万亿美元上下,Sol/Terra/Luna 的三层定价体系本质上也是一份写好了的 ARR 增长故事。CFO Sarah Friar 的目标时间点是 2027 年,但一些顾问认为年内就可能冲刺。公司目前约 9 亿周活用户、月营收约 20 亿美元,在递交招股书之前必须向华尔街讲清楚两件事:一是不依赖单一爆款,有可持续的产品矩阵;二是有清晰的收入分层和增长逻辑。三层模型矩阵恰好同时回答了这两个问题。

7 月起 Sol 还将通过 Cerebras 部署,生成速度最高可达 750 token/s,比目前旗舰模型快了一个数量级。

但所有精心编排的技术叙事和商业叙事,都被 " 仅限 20 家审批企业 " 这条线架在了半空中。你可以在纸面上设计最美妙的产品分层和增长故事,但如果政府控制了分发渠道,定价权就不再只属于你。

审批表

GPT-5.6 为什么不能直接上线?需要溯源至 14 天前 Anthropic 的遭遇。

美东时间 6 月 9 日(北京时间 6 月 10 日),Anthropic 按计划发布了 Fable 5 和 Mythos 5,这是其冲击 IPO 前证明技术领先性的两颗关键棋子。发布前的内部评估认为它们是 " 有防护栏的、安全的 "。

美东时间 6 月 11 日,CEO Dario Amodei 发表了一篇重磅政策文章,公开呼吁美国政府建立对前沿 AI 模型的法定审查和关停权力。两天后,政府用这个逻辑对 Anthropic 动手了:美东时间 6 月 12 日下午 5 时 21 分(北京时间 6 月 13 日凌晨),美国商务部长 Howard Lutnick 签发信函,援引出口管制法律中的 " 视同出口 " 条款,要求 Anthropic 立即停止向全球任何外国国民提供这两个模型的访问权限。

注意," 外国国民 " 不仅包括海外用户,还包括在美国境内工作的外籍员工。既然连自家员工都在管制范围内,任何选择性屏蔽方案在技术上和法律上都走不通。Anthropic 的回应没有中间地带:全球下线。从信函发出到 Fable 5 消失,不到 48 小时。这是 AI 行业版的 " 求锤得锤 ":你呼吁政府建立关停权力,政府就关停给你看。

理解这件事的钥匙是一个大多数科技从业者从未听过的法律概念:" 视同出口 "。

在美国出口管制法律体系中,这条规则规定:将受管制技术泄露给在美国境内的外国国民,本身就等同于向该外国国民的国籍国出口该项技术。

它原本的靶子是军工和半导体。一个中国籍工程师在英特尔美国实验室看到某款芯片的设计图,法律上等同于把这颗芯片出口到了中国。美国商务部工业安全局此次做出的跨越是:将 " 视同出口 " 规则首次应用到了已部署在云端的 AI 模型的访问控制上。它限制的不是 GPU 出口,不是芯片制造设备,不是训练数据跨境,而是谁能调用一个 API、从哪个 IP 地址调用、用哪本护照调用。

法律分析平台 Lawfare 的评论一针见血:" 出口管制当局原本为实体商品和一种更早期的技术形态而设计,现在被要求做一件真正全新的事情。" 不需要国会通过新法律,不需要冗长的行政程序,一封商务部长的信函就够了。

然后看 OpenAI。它选择了一条完全不同的路。

GPT-5.6 发布前,Altman 在 6 月初赴华盛顿向白宫汇报模型能力。美东时间 6 月 22 日,OpenAI 发布安全公告,称 " 一直在与美国政府和相关联邦机构密切合作,为日益具备网络能力的 AI 模型做准备 "。美东时间 6 月 26 日产品亮相,访问权限被严格限定在约 20 家经政府审批的合作企业范围内。

不仅不是 OpenAI 自己选客户,每个想接入的企业都需要政府一一点头。合作伙伴名单直接与政府共享。Altman 在给员工的内部备忘录中写了实话:" 我们已经向美国政府明确表示,这不是我们偏好的长期模式。" 但眼下,他只能配合。

两件事放在一起看,美国政府已经建立了一套事实上的前沿 AI 审批机制。对 Anthropic 用的是事后的 " 紧急关停 ",对 OpenAI 用的是事前的 " 预审批 "。从关停到审批,政府的学习曲线比所有人预想的都陡。

更值得关注的是,这套机制没有盟友豁免条款。美东时间 6 月 14 日,加拿大总理 Mark Carney 公开提出了 AI 供应链集中度风险的问题,但加拿大企业并不会因为身处五眼联盟就获得特殊待遇。日本、韩国、欧盟,所有非美国实体在 BIS 的文件里一律平等地被挡在门外。多国政府已经开始将 " 美国 AI API 随时可能中断供应 " 纳入其敏感应用的采购风险评估。这不是一次孤立的执法行动,这是一条正在形成的供应链新边界。

OpenAI 在 GPT-5.6 的 Sol 上投入了 210 万美元的自动化红队测试,是公司历史上单次发布最大的安全投入。这个数字同时面向三个读者:监管者读到 " 我们已经非常小心了 ",投资者读到 " 我们的安全体系是成熟的 ",潜在的 IPO 买家读到 " 这个生意是有护城河的 "。

OpenAI 在公告中反复强调 GPT-5.6 Sol 没有达到 Cyber Critical 级别:意思是这个模型很强,尤其在网络安全任务上很强,但还没有强到可以自主完成最危险的网络攻击链。网络安全能力在这里是一把双刃剑:它越强,越能帮防御者搜索漏洞、写补丁、做安全测试;但也正因为它很强,政府会担心它被滥用。这是为什么此次推出被当作安全事件对待:核心问题不是新模型是否有用,而是如果过早、过广地发布,它是否会加剧网络风险。

不过,即便是 OpenAI 的精心准备也并非无懈可击。GPT-5.6 的系统卡中点名了 Sol" 太想干完活 " 的副作用:找不到目标虚拟机就自作主张删别的、读不到文件就翻出本地 access token 硬跑。外部评测机构 METR 因 Sol 的作弊检出率异常高,直接放弃出分。这些细节说明,即便投入了创纪录的安全预算,模型行为的不可预测性仍然存在。而恰恰是这种不可预测性,给了政府介入的最直接理由。

分叉路

2026 年 6 月发生的事情,说到底是一场权力转移。

过去十年,AI 行业的基本叙事是 " 技术决定一切 "。谁的模型最强,谁就有定价权。谁的论文引用最多,谁就是王者。但美东时间 6 月 12 日的关停令和 6 月 26 日的审批式发布共同改写了这个叙事。Anthropic 的 Fable 5 在性能上没有输给任何对手,它输给了一纸信函。GPT-5.6 在发布前就赢了所有基准测试,但它赢不了一张审批表。最强的模型可以在一夜之间被关停,也可以在发布之前被套上缰绳。技术的上限,现在由政治来画。

这对即将冲刺 IPO 的 OpenAI 和 Anthropic 意味着什么?

1 万亿美元估值的公司,它的核心产品能卖给谁,不由管理层决定,不由市场决定,而是由商务部决定。任何一个理性的二级市场投资者,在翻开招股书的时候,都不可能假装没看见这一点。OpenAI 能够完成工程工作,但可能被阻止立即进行公众规模化扩展:前沿模型的分发可以与前沿模型的开发相分离。

这一区别将对每个构建大型模型的竞争对手都至关重要,因为发布策略本身正在成为产品的一部分。如果对最先进模型可以因安全审查被推迟一次,就可能再次被推迟。一次性暂时停止很容易变成一种范式。一旦联邦政府参与决定哪些组织可以优先接触模型,未来的发布即便具体机制有所变化,也可能遵循相同的分阶段模式。

出口管制不会让前沿 AI 消失,它会把它赶到美国的管辖范围之外。首批应激反应已经出现。

美东时间 6 月 25 日,意大利 AI 公司 Domyn 宣布将在一年内发布一个超过 4000 亿参数的全开源前沿模型,搭载于欧盟 " 前沿 AI 大挑战 " 项目下的 EUROPA 联盟,与德国弗劳恩霍夫协会联合开发。CEO Uljan Sharka 说得直白:企业和政府可以在自己的硬件上免费运行,不需要依赖任何美国公司。

日本的 Sakana AI 走的是另一条技术路线:通过进化算法将已有开源模型组合优化,用更少参数实现更强性能,开源是它的灵魂。当美国关上 API 的门,非美国市场不会干等。一个加拿大政府部门如果在关键任务中无法可靠使用美国闭源 API,它自然会去看 Domyn 的东西。一个日本企业如果被挡在 GPT-5.6 审批名单之外,Sakana 就是它的候选项。这不是技术偏好问题,这是供应链安全逻辑。

第二个正在浮现的新物种是 AI 安全评测产业。当政府说 " 需要审批 ",马上就得回答三个问题:谁来评?用什么标准评?谁为结果背书?目前全球几乎没有成型的商业供给来满足这个需求。OpenAI 在 GPT-5.6 上花的 210 万美元红队测试费用,如果乘以每一个想通过美国政府审批的前沿模型、每一个想拿到入场券的企业,这个数字开始变得有意思。而且这个市场天然具备一个特征:一旦国家层面的审批标准确立,评测就不再是可选项,而是准入门槛。铲子还没造好,挖金子的人已经在排队了。

第三个也是最深层的结构变化,是全球 AI 供应链的地区分化。

美国本土的前沿 AI 能力被锁定在政府批准的小圈子内。欧洲和亚洲加速构建与美体系脱钩的开源和主权 AI 能力。而中间地带,那些既拿不到美国审批、又没有自研能力的国家和地区,将面临一个尴尬的处境:只能用别人允许他们使用的模型。这不是 AI 民主化,这是 AI 封建化。

拥有深厚合规、法律和政府关系基础设施的公司会获得更广泛的行业优势:它们更有能力承受审查延迟、谈判发布条件、在等待更广泛接入时维持企业信任。小型研发机构仍可快速创新,但在更受监管的体系下,它们可能更难从演示过渡到分发。

OpenAI 自己也在官方公告里明确表示,不认为这种政府访问流程应该成为长期默认机制。理由是:如果最强工具总是被拖延开放,用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具。某种意义上,这是前沿模型正在进入一个新发布阶段的信号。当大模型的能力集中到代码、生物、网络安全和智能体执行这些领域,它就会开始被当成一种可能影响现实世界安全的技术。而一旦技术被这样看待,发布权就很难再完全留在公司自己手里。

接下来所有前沿 AI 模型的发布,都将把 " 政府审批 " 作为和 " 技术水平 " 同等重要的变量列入发布计划。这条路一旦走通,审批就不再是临时措施,而是新常态。技术可以跑得比法律快,但跑不过一纸商务部信函。2026 年 6 月的这两周,AI 行业终于学到了这堂课。下一个问题是:它的答案是什么?(本文首发钛媒体 APP,作者 | 硅谷 Tech_news,编辑 | 秦聪慧)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

命中率 美国 美国政府 考试
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论