钛媒体 昨天
GPT-5.6来了:旗舰版碾压GPT-5.5,价格却没涨
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

文 | 字母 AI

GPT-5.6 来了,但……这是个什么型号?

这次 OpenAI 没有沿用过去大家熟悉的 Pro、Mini、Instant 这类命名,而是一次性端出了三个名字:GPT-5.6 Sol、GPT-5.6 Terra、GPT-5.6 Luna。

Sol 是太阳,Terra 是地球,Luna 是月亮。

听起来很花哨,像一个新的模型宇宙。但它其实还是我们熟悉的那套产品分层:一个最强的旗舰模型,一个日常使用的均衡模型,一个便宜、快速、适合大规模调用的轻量模型。

OpenAI 官方说法是:GPT-5.6 系列会在未来几周全面开放,但目前先应美国政府要求,在 Codex 和 API 中向一小群 " 值得信赖的合作伙伴 " 进行有限预览。

让我们先来了解一下已公开的情报。

  最高档和 GPT 5.5 同价

OpenAI 这次给 GPT-5.6 分了三档:Sol、Terra、Luna。

按照官方说法,Sol 是旗舰模型,Terra 是面向日常工作的均衡模型,Luna 则是快速、便宜的轻量模型。

三档模型一口气全放了出来,基本对应大模型产品里最常见的三层结构:最强模型负责能力上限,中间模型负责大多数日常任务,轻量模型负责速度、成本和高并发调用。

从价格就能看出三者的层级。

按照 OpenAI 公布的 API 价格,GPT-5.6 按每 100 万 token 计费:Sol 是输入 5 美元、输出 30 美元;Terra 是输入 2.5 美元、输出 15 美元;Luna 是输入 1 美元、输出 6 美元。

相信大家可能注意到了:GPT-5.6 Sol 虽然是新一代旗舰模型,但价格对齐的是 GPT-5.5 标准版,而不是 GPT-5.5 Pro。

Terra 则直接降到 GPT-5.5 的一半,Luna 只有 GPT-5.5 的五分之一。

GPT-5.5 Pro 依然是当前 OpenAI 最贵的模型,价格是输入 30 美元 / 百万 token,输出 180 美元 / 百万 token,价格是 GPT-5.5 标准版和 GPT-5.6 Sol 的 6 倍。也不知道之后会不会再出一个 " 更适合专业任务 " 的 GPT-5.6 Universe(只是开玩笑)。

Sol 是这次 GPT-5.6 系列里的最高档,也是官方公告里花最多篇幅介绍的模型。

OpenAI 把 GPT-5.6 Sol 称为目前最强模型,重点展示了它在写代码、生物研究和网络安全上的能力。

简单说,Sol 的定位是 " 最会干活的模型 ",它对应的不是普通聊天场景,是更复杂、更接近真实工作的任务。

比如在代码场景里,它可以围绕一个目标持续推进:先理解问题,再拆步骤,然后调用工具、运行命令、检查结果,出错了再改,直到任务完成。

为了支撑 Sol 处理更难的任务,OpenAI 给 GPT-5.6 引入了两个新机制。

第一个叫 max reasoning effort,可以翻译成 " 最大推理强度 "。

通俗理解,就是让 Sol 有更多时间想清楚问题、花更长时间进行深度推理,适合那些不能靠第一反应解决的复杂任务。

第二个叫 ultra mode,可以理解为 " 超强模式 "。

这个模式的重点是让多个子智能体一起参与复杂任务,可以理解为:过去是一个 AI 助手自己干活,现在是一个 "AI 经理 " 带着几个小助手分头处理问题,从而加快复杂工作的推进。

Terminal-Bench 2.1 就是一个更接近真实开发流程的测试,考的是模型能不能在命令行环境里一步步解决问题。GPT-5.6 Sol 在该测试中拿到了 88.8% 的高分,Ultra 模式下得分更高。

OpenAI 特别提到,等模型更广泛开放时,还会公布一套更完整的评测结果。

Terra 是中间档。

OpenAI 对 Terra 的介绍没有那么长,但定位很清楚:它是面向日常工作的均衡模型。

也就是说,它不一定追求最强,但要在效果、速度和成本之间取得平衡。官方强调,Terra 的能力接近 GPT-5.5,但价格便宜一半。

在 OpenAI 的设想中,Terra 很可能才是 GPT-5.6 系列里最常用的那一档。普通办公任务很多时候不需要 Sol 那样的最高能力,但需要稳定、便宜、好用。

在 Terminal-Bench 2.1 测试中,GPT-5.6 Terra 拿到了 84.3%,和 Claude Fable 5 持平。

Luna 则是最低成本档。

OpenAI 对 Luna 的定位也很简单:快,便宜,它适合大量、高频、对成本敏感的任务。

比如批量摘要、文本分类、信息抽取、简单问答等等,这些任务本身不一定复杂,但调用量可能非常大。Luna 的作用,就是把这些轻量任务用更低成本跑起来。

这三档模型,Sol 负责最高能力,Terra 负责日常工作,Luna 负责速度和成本,听起来花哨,但 OpenAI 只是把大模型行业已经很成熟的分层重新包装了一遍。

不过我觉得名字什么的并不重要,便宜好用就行。

性价比这一块儿

只看官方公告,GPT-5.6 Sol 这次放出的 benchmark 并不算多。OpenAI 自己也说,现在只是为了让外界提前了解模型性能,所以先分享一组评估结果。

但放出来的这组 benchmark 方向很明确,集中展示了三个领域:代码、生物学和网络安全。

前面提到的 Terminal-Bench 2.1 就属于代码方向,它考的是模型能不能在命令行环境里完成真实开发流程,包括规划、反复修改、调用工具和验证结果。

除了代码,OpenAI 还重点提到了一个生物学 benchmark:GeneBench v1。

GeneBench v1 评估的是长周期的基因组学和定量生物学分析任务,重点看模型能不能处理更接近真实科研流程的分析问题。

按照 OpenAI 的说法,GPT-5.6 Sol 在 GeneBench v1 上比 GPT-5.5 表现更强,而且使用的 token 更少。

第三个重点方向是网络安全。OpenAI 称,GPT-5.6 Sol 是它目前最强的网络安全模型,尤其是在长周期安全任务上(包括漏洞研究和漏洞利用相关任务)。

这里有一个 benchmark 叫 ExploitBench ——它不是一般的安全问答,是更接近漏洞利用场景的评估。

OpenAI 称,在 ExploitBench 上,GPT-5.6 Sol 的表现可以和 Mythos Preview 媲美,但只用了大约三分之一的输出 token。

虽然,官方给出的这张图上还有一定差距。

可以看出,OpenAI 这次反复强调:他们在能力强的同时,效率也特高。

更少的输出 token,意味着模型完成同类任务时可能更简洁、更少绕路,也可能意味着实际调用成本更可控。

OpenAI 还提到了另一个网络安全 benchmark:ExploitGym。

这个 benchmark 是 UC Berkeley 研究人员与 OpenAI 以及其他前沿实验室合作创建的。OpenAI 说,在 ExploitGym 上,GPT-5.6 Sol、Terra、Luna 三档模型都显示出明显的网络安全能力提升,而且随着推理强度提高,表现也会变强。

意思是,GPT-5.6 的提升不只是模型本体变强,也和推理方式有关。给模型更多时间思考、让它做更长链条的推理,结果就会更好。

关于有限预览

如果说 Sol、Terra、Luna 是 GPT-5.6 表面上的变化,那么更值得关注的事情是,OpenAI 这次没有直接全面开放。

按照官方公告,目前 GPT-5.6 只会先在 Codex 和 API 中,向一小群 " 值得信赖的合作伙伴 " 进行有限预览。

并且,这次有限预览是 " 应美国政府要求 " 进行的,参与预览的合作伙伴名单已经和美国政府共享。

最近一段时间,美国政府正在明显加强对前沿 AI 模型的介入,尤其是那些具备更强代码、网络安全和 agent 能力的模型。

今年 6 月,美国政府发布了新的 AI 网络安全相关行政令,提出要建立一个自愿框架,让前沿模型开发者在模型更广泛发布前,与政府进行接触和评估。

法律界对这份行政令的解读是:它名义上不是强制许可、也不是正式审批制度,但已经搭起了一个政府参与模型发布前评估的制度框架。

GPT-5.6 Sol" 先小范围预览、名单与政府共享 " 的发布模式,可以看做前沿模型的发布流程里,第一次出现了清晰的政府介入痕迹。

OpenAI 自己也在公告里解释,之所以采取这种方式,是为了和政府一起探索一个可重复的流程,用来支持未来的模型发布。

政府介入背后,核心原因是网络安全。

官方公告里,网络安全占了非常大的篇幅:OpenAI 一边强调 GPT-5.6 Sol 是它目前最强的网络安全模型,能在漏洞研究、漏洞分析、安全防御等长周期任务上提供更强帮助;另一边又花了大量篇幅解释,它没有跨过自己的 Cyber Critical 门槛。

OpenAI 的准备框架里,把高风险能力分成不同等级。达到 High,意味着模型可能放大已有的严重风险;达到 Critical,则意味着模型可能带来前所未有的新型严重风险。

OpenAI 反复强调 GPT-5.6 Sol 没有达到 Cyber Critical,其实是在告诉政府、客户和公众:这个模型很强,尤其在网络安全任务上很强,但还没有强到可以自主完成最危险的网络攻击链。

网络安全能力就像一把双刃剑,它越强,越能帮防御者找漏洞、写补丁、做安全测试;但也正因为它很强,政府也会担心它被滥用。

虽然 OpenAI 承认这次发布需要和政府一起摸索流程,但它也在官方公告里明确说明,他们不认为这种政府访问流程应该成为长期默认机制。

理由是:如果最强工具总是被拖延开放,用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具。

某种意义上,前沿模型正在进入一个新的发布阶段。

当大模型的能力集中到代码、生物、网络安全和智能体执行这些领域,它就会开始被当成一种可能影响现实世界安全的技术。

而一旦技术被这样看待,发布权就很难再完全留在公司自己手里。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论