新智元 前天
OpenAI“截胡”IMO金牌,奥特曼为GPT-5献上“核弹级”预热
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

谁曾想,OpenAI 又抢尽了谷歌的风头!

爆料称,谷歌 DeepMind 的 AI 模型早在本周五,也就是两天前,便拿下了 IMO 金牌。

但由于内部审核慢,需等下周一市场部批准后,DeepMind 才能官宣具体情况。

OpenAI 瞅中了时机,用全新通用推理模型在 IMO 刷题后,立即公开了结果。

昨天,全网几乎都被 OpenAI 拿下 IMO 金牌刷屏了。自家研究员纷纷现身,宣传 OpenAI 神秘模型的强大。

如今看来,这一切都是有预谋的。

谷歌 DeepMind 研究员 Archit Sharma 调侃道," 恭喜!居然比我们先官宣了——现在 P6 是新标杆了吗 "?

一、OpenAI 抢夺 IMO 金牌,GPT-5 即将诞生

为什么通用推理模型拿下 IMO 金牌,会受到热烈关注?

简而言之,OpenAI 这次的通用推理模型在" 通用强化学习和测试时计算扩展方面开辟了新天地 "。

这次的通用推理模型有啥不同之处?

OpenAI 推理研究员 Noam Brown 指出,这个模型并非专门为国际数学奥林匹克竞赛设计。

它是一个融合了全新实验性通用技术的推理 LLM,这使其在难以验证的任务上表现得更好。

IMO 问题正是这一挑战的完美体现:证明过程长达数页,专家需要花费数小时来评分。

相比之下,AIME 的答案只是一个 0 到 999 之间的整数。

与过去的基准相比,IMO 问题需要更高层次的持续创造性思维。

这次的通用推理模型,在推理时间跨度上实现了逐步进步:从 GSM8K → MATH 基准→ AIME → IMO。

" 重要的是,它的思考效率也更高。而且在测试时的计算能力和效率方面还有很大的提升空间。"

其次,IMO 的参赛作品是难以验证的多页证明。

在这方面的进展需要超越明确、可验证奖励的强化学习范式。

通过这样做,就可以获得一个能够像人类数学家一样构建复杂且无懈可击论证的模型。

这项成果到底意味着什么?

Noam Brown 给出了答案:

可能是因为这次的 IMO 事件,奥特曼也出来公开发声。

他称,OpenAI 拿下 IMO 金牌这事,需要强调的是," 这是一个 LLM 在做数学题,而不是一个特定的形式化数学系统。这是朝着 AGI 迈进的主要部分。"

奥特曼之所以这么 " 积极主动 ",其实也可能是在为 GPT-5 的发布提前铺路。

当下这个节点对 OpenAI 来说非常重要,令人期待的 GPT-5 即将面世。

他们估计想在这个重要节点上,利用 OpenAI 拿下 IMO 金牌这事,为 GPT-5 来波神助攻。

但奥特曼也稍显谨慎,调低了各位对 GPT-5 的预期。

他指出,GPT-5 是一个实验性模型,用了一些将在未来模型中会使用的新研究技术。

" 在数月内,不会发布具备 IMO 金牌水平能力的模型。"

二、陶哲轩点评 IMO

针对 IMO 金牌得主背后的争议,数学大佬陶哲轩也公开表达了自己的看法。

" 不会评论任何未预先公开测试方法的 AI 竞赛成绩报告。"

陶哲轩简明扼要地表示,在缺乏受控测试环境的情况下,AI 的数学能力难以准确评估。

他指出,很多人对 AI 有个误解,就是把它的能力看成是 " 行 " 或 " 不行 " 两个极端。

但实际上,它的能力是一个巨大的范围。你给它提供的计算资源的多少、给它的指令有多好,以及你要求它如何输出结果,这些都会导致最终的效果有天壤之别。

以人类竞赛为例,在刚结束的 IMO 竞赛中,各国派出六名高中生选手组成的团队。

在两天赛程中,每位选手每天用四个半小时独立解答三道难题,仅限纸笔演算。

期间选手之间严禁交流,仅可向监考者询问题目表述问题。领队仅在评分环节向评审委员会申诉,不直接参与解题。

大家都知道,IMO 被视为衡量中学生数学能力的金标准:金牌线今年被定为 35/42 分,完整解出一题即可获得 " 荣誉提名 "。

但若改变竞赛形式,难度将发生剧变!

考虑一下,如果我们以其他方式改变奥林匹克竞赛的形式,其难度水平会发生什么变化?

比如,给学生几天时间来完成每道题,而不是三个题目只给四个半小时。

在考试开始前,团队负责人会将问题改写成学生更容易理解的格式。

学生可以无限使用计算器、计算机代数软件包、形式化证明助手、教科书或上网搜索。

领队让六人团队同时处理同一个问题,相互交流各自的部分进展和遇到的死胡同。

在此期间,队长会引导学生采用更有利的方法,并在某个学生花费过多时间在他们知道不太可能成功的方向时进行干预。

提交阶段,每位队员提交解答,但队长只选出 " 最佳 " 解答递交竞赛,其余的都弃之不用。

如果团队中的学生都未能获得令人满意的解决方案,团队负责人将不会提交任何解决方案,并且会悄然退出比赛,而他们的参与也永远不会被记录。

在这些情境下,答案仍 " 技术性 " 地源自学生之手。

这也说明,竞赛形式的改变能使原本铜牌线下的团队跃升至金牌水平。

" 这警示我们,在缺乏统一测试标准的情况下,贸然对比不同 AI 模型的 IMO 表现如同比较苹果与橙子,没有对比意义可言," 陶哲轩指出。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

奥特曼 谷歌 deepmind 数学 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论