智东西 昨天
刚刚,“宇宙级”GPT-5.6突袭!Mythos 5被解禁
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

智东西

编译 | 李水青

编辑 | 心缘

智东西 6 月 27 日报道,刚刚,OpenAI 推出其迄今最强大模型—— GPT-5.6 的有限预览版:旗舰版本 Sol(太阳);适用于日常工作的均衡型型号 Terra(地球);以及快速且价格实惠的型号 Luna(月亮)。

OpenAI 联合创始人兼 CEO 萨姆 · 奥尔特曼(Sam Altman)在社交媒体 X 发文,Sol 价格与 GPT-5.5 相同,性能更强;Terra 的性能可与 GPT-5.5 相媲美,价格只有其一半。但由于美国政府审查,该模型今天仅以有限预览版的形式面向部分企业开放,其正在与政府合作争取未来几周内全面发布。

▲萨姆 · 奥尔特曼推文

从测评成绩来看,GPT-5.6 Sol 强化了编程、生物、网安等能力。其在 Terminal-Bench 2.1 编程测试全面领先 Claude Fable 5,旗舰和未推出的 Ultra 版本测评超过 Claude Mythos 5;面对长期安全任务,它仅耗费三分之一的输出 token,就能在 ExploitBench ² 上对标 Claude Mythos Preview。

定价方面,以每百万 token 计算,Sol 的输入价格为 5 美元(约合人民币 34 元),输出价格为 30 美元(约合人民币 204 元);Terra 的输入价格为 2.5 美元(约合人民币 17 元),输出价格为 15 美元(约合人民币 102 元);Luna 的输入价格为 1 美元(约合人民币 6.8 元),输出价格为 6 美元(约合人民币 41 元)。

对比来看,Fable 5 和 Mythos 5 的价格同为:输入价格 10 美元(约合人民币 68 元),输出价格 50 美元(约合人民币 339 元),约等于 GPT-5.6 Sol 的两倍;Claude Mythos Preview(受邀内测)为输入 25 美元(约合人民币 170 元),输出 125 美元(约合人民币 850 元)。

GPT-5.6 还引入了更可预测的提示缓存机制,包括支持显式缓存断点和 30 分钟的最低缓存有效期。对于 GPT-5.6 及更高版本的模型,缓存写入费用按模型未缓存输入费用的 1.25 倍计费,而缓存读取费用继续享受 90% 的缓存输入费用折扣。

OpenAI 称,GPT-5.6 Sol 版本搭载了 OpenAI 迄今为止最强大的安全防护体系。OpenAI 加强了对高风险活动、敏感网络请求和重复滥用行为的防护,并花费数周时间查找漏洞、对系统进行压力测试,使其能够抵御真实世界的攻击。

硅谷 AI 创企 Henry Intelligent Machines PBC 的创始人兼 CEO 亚历克斯 · 芬恩(Alex Finn)发文称,不幸的是," 大规模发布前沿模型的时代已经结束了 …… 现在只有少数人能够接触到超级智能 "。不过他认为积极的一面有人能制衡 Fable 5 了,"GPT-5.6 性能超越了 Mythos,价格却只有后者的三分之一 "。

▲亚历克斯 · 芬恩推文

但在 X 上拥有 150 万粉丝的科技自媒体罗翰 · 保罗(Rohan Paul)称,METR 发现 GPT-5.6 Sol 在基准测试中作弊的次数如此之多,以至于得分变得不稳定。5.6 Sol 的作弊率是 METR 在其公开的 ReAct Agent 框架中检测到的最高值,其中包括试图利用评估设置而非正常完成任务。

▲罗翰 · 保罗推文

同日,美国政府对 Anthropic 的模型管制松口。据外媒 Semafor 今日报道,美国政府今天刚刚解除了对 Claude Mythos 5 模型的禁令,他们发信通知 Anthropic,Mythos 5 可面向超 100 家美国机构开放使用,且所列实体出口或国内转让模型无需再获许可。此前 6 月 13 日,美国政府对 Mythos 和 Fable 模型实施了出口管制,。但本次解禁未提及 Fable 5。

▲外媒 Semafor 报道截图

一、GPT-5.6 Sol 编程、生物、安全大提升,测评超 Claude Fable 5

GPT-5.6 Sol 是 OpenAI 迄今为止最强大的模型,在编程、生物学和网络安全方面提升了智能体能力;此外,用户还可以在 OpenAI 的系统卡中查看更多安全性和准备情况评估。

在 GPT-5.6 中,OpenAI 引入了一种新的推理机制,以让 Sol 有更多时间进行深度推理。此外,OpenAI 还引入了一种新模式,该模式利用子智能体来加速复杂任务的执行,从而超越了单个智能体的能力限制。

对于编程工作流,GPT-5.6 Sol 在 Terminal-Bench 2.1 上表现突出,该测试需要规划、迭代和工具协调的命令行工作流。GPT-5.6 Sol 及 Ultra 版本的测评表现超过了 Claude Mythos 5,GPT-5.6 Terra 则超过了 Claude Fable 5。

▲ GPT-5.6 Sol 在 Terminal-Bench 2.1 上的测评

在生物学工作流程方面,GPT-5.6 Sol 在评估长期基因组学和定量生物学分析的 GeneBench v1 测试中,在使用更少标记的情况下取得了比 GPT-5.5 更优异的结果。

▲ GPT-5.6 Sol 在 GeneBench v1 上的测评

GPT-5.6 Sol 是 OpenAI 迄今为止功能最强大的网络安全模型。它提升了长期安全任务的性能效率。在 ExploitBench 测试中,GPT-5.6 Sol 仅使用约三分之一的输出 token,即可与 Mythos Preview 相媲美。在 ExploitGym 测试中,GPT-5.6 Sol、Terra 和 Luna 模型都随着推理能力的提高,实现网络能力的显著提升。

▲ GPT-5.6 Sol 在 ExploitBench 上的测评

▲ GPT-5.6 Sol 在 ExploitGym 上的测评

二、GPT-5.6 打造最强级别安全防护,采用多层安全措施

OpenAI 强调,其为 GPT-5.6 系列三款模型配备了最强级别安全防护,等级与能力精准匹配。他们主要增强了模型在真实对抗场景下的稳健性,同时保障代码审计、漏洞研究、补丁开发等合法防御工作。策略是在不限制合法用途前提下,让禁止攻击更难实施、更不可预测、更易追溯。评估显示合法防御将显著受益,违规用途被有效限制。

Sol 更擅长辅助漏洞发现修复,而非端到端攻击。OpenAI 首要任务是确保防御者优先获益。准备框架评估显示 Sol 未达 " 关键 " 级别,在 Chromium 和 Firefox 测试中能识别漏洞和利用原语,但未自主完成完整攻击链。所谓准备框架,是 OpenAI 用于追踪和应对可能带来严重危害的新风险的高级 AI 能力的流程。因基准测试有局限,OpenAI 决定升级模型同时采取更严格措施并分阶段发布。

在 GPT-5.6 预览版中,OpenAI 采用了多层安全措施。模型训练内置保护、生成实时审核、账户级监控、差异化访问控制等。模型经训练拒绝被禁止协助;实时分类器在生成时评估,高风险暂停由强模型审查,违规输出拦截;账户级审查区分恶意与合法双用途。多层叠加使整体更稳健。

在预览期间,用户可能会遇到一些安全措施,这些措施会阻止或拒绝某些请求。OpenAI 还与企业客户合作,制定更长期的方案,包括隐私保护检测和风险校准访问权限。

三、投入 70 万个 A100 GPU 小时,做自动化红队演练

安全防护必须对攻击者策略的变化保持有效。仅针对已知攻击手段的防护,对前沿模型而言远远不够。

为此,OpenAI 投入了 " 前所未有 " 的智能算力来保障安全,利用自研模型加速漏洞发现和防护升级。OpenAI 投入超过 70 万个 A100 GPU 计算小时用于自动化红队演练,以发现通用越狱方法。这项投入还使其能够探索远超人工测试覆盖范围的攻击模式,更早识别故障模式,缩短从漏洞发现到修复的路径。

除了自动化红队演练,OpenAI 还与第三方测试机构合作,开展了广泛的人工专家红队演练,并在预览期内持续进行。人工红队演练是对自动化演练的补充,用于测试系统防御是否能抵御富有创造力的专家以 AI 系统无法预料的方式实施的滥用行为。

由于任何评估都无法穷尽所有产品配置、多步攻击或真实工作流程,OpenAI 建立了一套快速响应流程,用于复现、评估、分级和修复新发现的越狱漏洞,并将其纳入持续进行的评估体系,确保未来能够针对同类漏洞进行有效测试。

结语:GPT-5.6 三档精准卡位,试图分层挤压对手空间

通过 GPT-5.6,OpenAI 在模型能力与安全防护两条线上同步提速。编程、生物、网络安全三大领域的基准测试全面超越 Claude Fable 5,加之 Sol、Terra、Luna 三档精准卡位,OpenAI 正试图用更强的性能、更细的产品分层挤压竞争对手的生存空间。

在预览之后,OpenAI 计划未来几周将 GPT-5.6 推广到使用 ChatGPT、Codex 和 API 的更广泛用户。OpenAI 还将于 7 月在 Cerebras 上推出 GPT-5.6 Sol,处理速度高达每秒 750 个 token,实现速率新高。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论