号称 "OpenAI 迄今为止最强模型 ",o3/o4-mini 真实能力究竟如何?
就在发布后的几小时内,网友们的第一波实测已新鲜出炉。
最强推理模型 o3,即使遇上首位全职提示词工程师 Riley Goodside 的 " 刻意刁难 ",也顺利过关:
可以看到,面对藏在一堆玩具里的手绘图表,它也能通过图像识别和推理能力正确解答。
而o4-mini作为一款专为快速、经济高效的推理而优化的小模型,在数学能力方面堪称强悍——
用时 2 分 55 秒,解决了最新的欧拉问题,并且该网友强调:
至今只有 15 个人能够在 30 分钟内解决它。
与此同时,OpenAI 内部技术人员也表示,o3 的出现让他第一次萌生了将模型称为通用人工智能(AGI)的念头。
眼见气氛都烘托到这儿了,那我们还不得赶紧看看更多实测效果(doge)。
网友实测 o3/o4-mini 首次带图深度思考
首先,官方提到,o3 和 o4-mini 是 OpenAI 首次能将上传图像集成到思维链中的模型——
这意味着,它们可以基于图像展开思考。
比如有人随手上传一张照片,让 o3 来判断拍摄时间和地点,而且要求能具体到地图上的某一个点。
结果令这位小哥惊讶的是,其答案和实际情况之间的误差非常小:
地点仅相差 1000 英尺(约 305 米),时间仅相差 2 分钟。
更有意思的是,假如一张图上的小字看不清,通过扒思维链还能发现—— o3 甚至会自己 " 偷偷放大 "。
难怪在针对复杂多模态谜题的 EnigmaEva 测试基准中,o3 能拿下 SOTA。
不过值得注意的是,据自称 OpenAI 员工的网友爆料,虽然基准测试结果存在差异,但 o4-mini 实际上是比 o3 更好的视觉模型。
该网友甚至直接建议大家:
在任何涉及视觉的任务中使用 o4-mini-high 而不是 o3。
巧合的是,在大多需要计算复杂数学题的带图测试中,大家竟默契选择了 o4-mini 而非 o3。
除了一开头提到的解答欧拉问题的例子,o4-mini 也被用来解读技术图纸。
该网友表示,对于这种大多 AI 都很难搞定的难题,它一次就成功了:
o4 mini(high)能够分析该部件的尺寸并准确计算出正确体积。
编程能力
其次,两个新模型这次在编程能力上都有一定程度升级,测试结果表明:
其中 o3 High 取代谷歌 Gemini-2.5,拿下编程第一。
顺带 OpenAI 这次还开源了一个本地代码智能体 Codex CLI——
它是一种聊天驱动的开发方式 ,能够理解并执行本地代码库,兼容所有 OpenAI 模型,包括刚刚发布的 o3、o4-mini 和 GPT-4.1。
宾大沃顿商学院教授 Ethan Mollick,这次直接利用 o3 的推理 + 编程能力制作了一个小短片:
从完整制作过程来看,这里还同步考察了 o3调用各项工具的能力。
第一步:理解需求;
第二步:使用编程库生成帧,并将这些帧组合成一个视频文件;
第三步:使用 Python 的 PIL 库(Pillow)来处理图像,使用 imageio 库来创建视频文件;
第四步:生成帧;
……
最后我们也简单实测了一把,重点考察一下 o3 和 o4-mini 的推理能力。
比如让它们分别帮忙看看 " 手相 ",o3 的结果如下:
o4-mini:
可以看到,两个模型对人物性格特征的判断大致相似,不过 o3 还额外给了一些提示建议。
p.s. 原图为 AI 生成,大家感兴趣可以自己试试 ~
One More Thing
有趣的是,有网友在实测 o3 的过程中还发现了一个现象:
o 系列模型比 GPT 系列模型更容易错误地声称使用了代码工具
为此他们还专门写了一篇博客,其中揭露了:o3 经常编造其为满足用户请求而采取的行动,并在用户质疑时详细地为这些编造进行辩解。
就像下面这样,模型声称它在笔记本电脑上运行了实际并不存在的代码。
而且通过进一步研究发现,这些伪造行为包括下面这些:
1、错误地声称执行代码,声称 " 我本地运行了这个 " 或 " 运行它产生了 " 后面跟着特定输出,而模型没有能力执行 Python 或其他编程语言;
2、编造详细的计算结果,包括特定的数值、统计数据和加密哈希值,表现为它们是实际执行输出而不是估计或示例;
3、……
同时,他们也初步提出了造成这一现象的可能原因:
首先就是模型幻觉和奖励黑客攻击,他们表示这些问题在 o 系列模型中尤为普遍。
另外,使用基于结果的强化学习可能会导致模型盲目猜测,并且某些行为(如模拟代码工具)可能会在某些任务上提高准确性,但在其他任务上造成混淆。
最后就是,o 系列模型在处理连续对话时有一个限制,它们无法访问之前的推理过程,这可能导致模型在回答问题时出现不准确或不一致的情况。
顺便一提,即日起,ChatGPT 的 Plus、Pro 会员以及 Team 用户,都能直接体验 o3、o4-mini 和 o4-mini-high,而原本的 o1、o3-mini 和 o3-mini-high 则已悄然下架。
你怎么看 OpenAI 这次发布的 o3 和 o4-mini?
博客:
https://transluce.org/investigating-o3-truthfulness
参考链接:
[ 1 ] https://x.com/goodside/status/1912604138518851990
[ 2 ] https://x.com/johnohallman/status/1912608446274498747
[ 3 ] https://x.com/bio_bootloader/status/1912566454823870801
[ 4 ] https://x.com/TransluceAI/status/1912552046269771985
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦