仅隔一天,OpenAI 再次突然放大招:
一口气,o3和o4 mini同步上线。
依然是最热门推理模型,并且这一次,它们终于能够调用 ChatGPT 里的各种工具了,包括网络搜索、Python、图像分析、文件解释和图像生成。
也就是说,你现在可以也用 o3 来生成吉卜力风格的奥特曼抱子图了(doge)。
还不只是能看懂、生成图像,官方提到,o3 和 o4-mini 是 OpenAI 首次能将上传图像集成到思维链中的模型——
这意味着,它们可以基于图像展开思考,be like:
OpenAI 表示,o3是他们目前最强大的推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了 SOTA,在分析图像、图表和图形等视觉任务中表现尤为出色。
在外部专家评估中,o3 在困难现实任务中,能比 o1 少犯20%的重大错误。
而o4-mini则是一款专为快速、经济高效的推理而优化的小模型。
在专家评估中,o4-mini 在非 STEM 任务以及数据科学领域都超过了前代的 o3-mini。
在 AIME 2024 和 AIME 2025 中,甚至有超过 o3 的表现。
即日起,ChatGPT 的 Plus、Pro 会员以及 Team 用户,都能直接体验 o3、o4-mini 和 o4-mini-high,而原本的 o1、o3-mini 和 o3-mini-high 则已悄然下架。
实测 o3/o4-mini
所以,在基准测试上表现如此强势的 o3 和 o4-mini,具体能带来哪些体验上的改变?
Talk is cheap,来看实测案例。
在 OpenAI 的官方直播中,研究员们展示了这样一个用法:
让 o3 直接读一份未完成的学术海报,让它根据其中的研究线索,帮忙估算质子的同位旋矢量标量电荷,并搜索相关最新研究成果,对比新成果跟估算值的不同。
思考了不到 3 分钟,o3 完全没有被难住,吐出了这样的结果:
网友们也第一时间给 o3 和 o4-mini 上了小球测试:
△图源:x@flavioAd
还有医学教授在抢先体验后表示:完全停不下来。
我觉得 o3 的智能程度已经达到或接近天才水平了!
这位医学专家表示,他在向 o3 提出一些颇具挑战的临床或医学问题时,o3 能给出像直接来自顶级专科医生的回答。
我们也简单测试了一下,比如让 o3 和 o4-mini 分别解读一下 " 洛就完了 " 表情包。
o3:
o4-mini:
你 pick 哪个答案?
强化学习的 Scaling Law
值得注意的是,在 OpenAI o3 的开发过程中,研究人员观察到:
大规模强化学习呈现出与预训练一样的 " 更大计算量 = 更好性能 " 的趋势。
而 o3 正是通过在强化学习中践行 Scaling Law,得到了明显的性能提升。
OpenAI 表示:
这证明了模型性能会随着思考时间的增加而持续提升。
在延迟和成本与 OpenAI o1 相同的条件下,o3 实现了更强的性能——而且我们已经验证,如果让它思考更长时间,它的性能还会持续提升。
不过自打 DeepSeek 成了搅动大模型格局的鲶鱼,OpenAI 也是越来越强调 " 性价比 " 了:
相比 o1 和 o3-mini,o3 和 o4-mini 更强了,但却更经济了!
比如,在 AIME 2025 中,o4-mini 比之 o3-mini、o3 比之 o1,都能在同样的推理成本下拿到更高的分数。
API 定价方面,拉上 1 天前刚刚亮相的 GPT-4.1,具体价格如下:
One More Thing
OpenAI 再次开源了!发布一款一款本地代码智能体 Codex CLI。
可将自然语言转化为可运行的代码,兼容所有 OpenAI 模型,包括刚刚发布的 o3、o4-mini 和 GPT-4.1。
Codex CLI 为已经习惯使用终端,并希望拥有 ChatGPT 级别推理能力以及实际运行代码、操作文件和迭代能力的开发者打造。
它是一种聊天驱动的开发方式 ,能够理解并执行本地代码库。
GitHub 项目:
https://github.com/openai/codex
参考资料:
[ 1 ] https://openai.com/index/introducing-o3-and-o4-mini/
[ 2 ] https://x.com/sama/status/1912558064739459315
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦