OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型_ZAKER新闻

量子位 7小时前

OpenAI新模型Day0就被嫌弃！排名拉垮，不如一月底发布的国产模型

OpenAI 刚推出的 GPT-5.4 mini，Day0 就已经被嫌弃了。

根据公开的大语言模型评测基准 Vals，今天新出的 GPT-5.4 mini 仅排行第 13 名，优于 OpenAI半年前发布的 GPT-5。

值得一提的是，排行第 12 的是一月底出的的 Kimi 2.5，而 Kimi 2.5 比新出的 5.4mini 便宜一倍多，延迟还更低。

在同步的拓扑证明中，新出的 mini 和 nano 模型在全球范围内表现也只是中规中矩，分别排行第九第十，不如早前发布的 Kimi、Qwen、DeepSeek 等模型。

（OpenAI 后来居下这一块）

还有人指出，这次 GPT ‑ 5.4 mini 的 baseline 对比的是老 GPT ‑ 5 mini（运行速度快两倍），也就是大半年前的版本，而不是其他厂家的新模型。

不少网友甚至直言，换新 GPT ‑ 5.4 mini" 还真没必要 "。

虽然 OpenAI 的博客表示，在输出 tokens 上，性能近似的 mini 版本比 GPT ‑ 5.4 便宜三倍，nano 版本则几乎便宜十二倍。

但如果你拿 GPT ‑ 5.4 mini 与旧版 GPT ‑ 5 mini 对比，会发现同为 mini 档的模型，价格却上涨了大约三倍。

可以说，在龙虾热中，全球所有模型厂家都在涨价，奥特曼这么精的小子自然也没放过。

所以，这是拿着专门优化过编程和 agent 的小模型就来了？

新版 mini 和 nano 模型

今天，OpenAI 推出主打快速和经济的GPT-5.4 mini和nano模型，专门针对编程、计算机操作、多模态理解以及子代理（subagent）做了优化。

相比前代 GPT ‑ 5mini，新版 mini 和 nano 在性能上有不错的提升，同时运行速度提升超过两倍。

值得注意的是，在多个评测中，mini/nano 模型与满血版 GPT ‑ 5.4 的差距已经不大，性能上也基本与谷歌，Anthropic 的轻量模型持平。

根据 OpenAI 官方博客，新模型主打编程和子代理。

其中，GPT ‑ 5.4 mini在编程、推理、多模态理解和工具使用方面进行了优化，运行速度提升超过两倍，在 SWE-Bench Pro 和 OSWorld-Verified 等评测中表现接近满血版 GPT ‑ 5.4。

GPT ‑ 5.4 nano则是 GPT ‑ 5.4 系列中最小、最经济的版本，适合速度和成本敏感的任务，例如分类、数据提取、排序，以及处理较简单的辅助编程任务。

总的来说，这俩新模型适合延迟直接影响产品体验的工作负载，比如编码助手、子代理、屏幕截图解析、多模态应用。

说白了就是龙虾这类已经抽象出 skill 的 agent，部署在 mini/nano 这类反应快速，能力够用的小模型就更实惠。

在具体的使用上，GPT ‑ 5.4 mini 可在 API、Codex 和 ChatGPT 中调用，而 nano 仅能通过 API 使用。

价格方面，mini 版本每百万输入 tokens0.75 美元，每百万输出 tokens4.5 美元。Nano 版本在 API 中费用更低，每百万输入 0.2 美元，每百万输出 1.25 美元。

不过，横向对比来看，有网友指出，Gemini Flash 3 lite 则更智能，而且总体要便宜六倍多。

评测结果

在实际评测中，mini 和 nano 主要是针对编程和 Agent 任务做了优化。

在编程任务中，它们能够低延迟完成代码修改、调试循环和库导航，快速迭代，高效处理需要速度和成本兼顾的工作流程。

Mini 的通过率接近 GPT ‑ 5.4，同时速度更快。

在子代理场景中，开发者可以让大模型负责决策和规划，同时将较小的任务并行委派给 mini 子代理，比如搜索代码库、处理文档或辅助操作。

随着小型模型越来越快，这种模式的价值愈发凸显。

在计算机操作和多模态任务中，mini 表现同样出色，能够快速解析复杂用户界面截图，高效完成操作任务。

在 OSWorld-Verified 测试中，它的表现几乎接近满血版 GPT ‑ 5.4，同时明显优于 GPT ‑ 5 mini。

有些网友的实际测试也佐证了这些亮点。

reddit 网友 Rent_South 系统地测试新版 mini 在分类、总结、翻译等任务上的表现，并给出了高度评价：

我在它们身上跑了些基准测试，结果发现——在一些真实场景任务中，它们更便宜、更快，也更好用。

自从大约一年前，我在构建一个 RAG 流水线时，gpt ‑ 4.1-mini 在某些代理任务步骤上打败了 GPT ‑ 4 原版之后，我对 mini/nano 版本的热情就比对原版还高。

在分类任务中，nano 准确率达 70%，成本比 GPT ‑ 5.4 降低十二倍。

当调用超过超过一万次时，GPT-5.4 大约花费 20.30 美元，GPT-5.4-nano 则只有 1.64 美元，节省幅度约 91.9%。

在翻译任务上，nano 得分略低，为 55 分，但与 GPT ‑ 5.4 的 63 分差距不大，仍可作为替代选择。在超万次调用后，节省幅度仍达到了 91.3%！

在写作任务中，mini 版本反倒得分最高，成本比满血版低约六成。在超过 1 万次调用时，mini 花费 29.61 美金，nano 仅花费 10.30 美金。

此外，还有网友测试了模型描述图片的能力，nano 在描述博物馆照片时，输出详细准确，使用 token 极少，总成本甚至不到一分钱。

比如，这位网友让 nano 模型描述自己随手拍的博物馆的照片：

nano 模型输出了以下描述：

图片显示了一间博物馆展厅的内部，有一面长长的展墙。白色砖墙上整齐排列着许多装框肖像画。肖像画下方是多个玻璃展示柜，木框深色，顶部 / 前方为玻璃，展示柜内摆放着各种历史文物和设备。房间铺设了抛光木地板，吊顶上有悬挂灯具及电线，墙顶附近可见少量管道。前景中，沿房间长度排列的玻璃柜映出了其他展区的物品。

生成这么一段描述这次操作用了 2751 个输入 tokens 和 112 个输出 tokens，费用为 0.069 美分（不到一分钱的十分之一）。

即便在创意任务上，如生成鹈鹕骑自行车的 SVG 图，nano 和 mini 与满血版 GPT ‑ 5.4 仍有一定差距，但它们完成基础创作任务完全可行。

起码随着推理强度的提升，我们能看到画面可以保持相对的正确性。

整体看下来，这次模型跟 OpenAI 自家的产品来比，的确是可圈可点。

但对于这是否就是市面上最好的、最经济的小模型，还有待讨论。

one more thing

有趣的是，在 OpenAI 总裁 Greg Brockman 发布新模型的评论区，最火热的讨论居然不是新模型的能力，也不是价格，甚至几乎和新模型本身没有关系。

评论区里刷屏的，几乎全是带 keep4o 标签的：" 让 4o 回来！"

参考链接

[ 1 ] https://x.com/gdb/status/2034003374627049909

[ 2 ] https://simonwillison.net/2026/Mar/17/mini-and-nano/

[ 3 ] https://www.reddit.com/r/OpenAI/comments/1rwd9hd/breaking_openai_just_dropped_gpt54_mini_and_nano/

[ 4 ] https://x.com/scaling01/status/2033958931874099560

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

今天，你养虾了吗？

欢迎加入【龙虾养成讨论组】，一起交流养虾经验！扫码添加小助手加入社群，记得备注【OPENCLAW】哦～

一键关注点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

mini kimi nano

相关文章

评论

没有更多评论了

12 我来说两句…

打开 ZAKER 参与讨论