Gemini 2.5 Pro 拔得头筹,大模型挑战 IMO 2025 的成绩出炉了!
经过人工评判,Gemini 以超 30% 的总成绩断崖式领先,超出第二名 89%。
o3 和 o4-mini 则位列第二、三名,Grok 4 得分只有 11.9,但成本比 Gemini 还高出了 22%。
还有网友想到了之前拿下 IMO 银牌的 AlphaProof,好奇如果让它来挑战结果会怎样。
下面就来了解下这场测试的详细情况 ~
统一环境,双人匿名评估
这场测试由 MathArena 组织,基于模其在 MathArena 竞赛中的既往表现,选择的被测模型包括 Gemini 2.5 Pro、o3(high)、o4-mini(high)、Grok 4 和 DeepSeek-R1(0528)。
为了公平,测试对所有被测模型采用统一的提示词模板,该模板与 Open Proof Corpus 评估相同。
每个模型均使用推荐的超参数运行,最大 Token 数量限制为 64000。
对于每一个问题,每个模型都会生成 32 个初始回答,然后通过逐一比较的方式筛选出它们自己各自认为最好的四个。
模型自己选中的四个答案获得的平均成绩,将作为模型的最终分数。
MathArena 团队聘请了四名经验丰富的人类评委,每位评委都具备 IMO 级别的数学专业知识。
评委需要先评估题目并制定评分细则,每道题满分 7 分,每份答案均为匿名且需由两位评委独立评分,用于展示答案的界面也是统一的。
通过对测试过程的详细分析,MathArena 团队也发现了几个现象。
一是很多模型在 7 分的满分当中会得 3-4 分,这种现象在真人测试中是比较罕见的,而且模型犯错或者不会解决的部分,对人类来说反而比较容易,凸显了人类和模型能力之间的差异。
以及与早期的评估相比,模型过度优化最终答案格式的行为显著减少,表明模型在处理开放式数学推理任务方面已经取得了进展。
还有 Gemini 在 USAMO 当中编造不存在的 " 定理 " 的毛病,到了这次 IMO 当中大有改善。
另外 MathArena 还专门指出,Grok 4 的表现与预期严重不符,并且其绝大多数答案(未被选中的答案)只是简单地陈述了最终答案,而没有提供额外的解释。
以上就是 MathArena 对这五款模型的大致评估结果,接下来看一看他们都挑战了哪些题目。
大模型遇见几何集体低分
第一题关于解析几何。
如果平面内的一条直线不平行于 x 轴、y 轴和直线 x+y=0 中的任意一条,则称其为 sunny 直线。
设 n 为≥ 3 的整数,求出使得平面上存在 n 条直线满足以下两个条件的所有非负整数 k:
★对于所有满足 a+b ≤ n+1 的正整数 a 和 b,点 ( a,b ) 位于其中至少一条线上;
★在这 n 条直线中有且只有 k 条为 sunny 直线。
第二题则是平面几何。
设 Ω 和 Γ 分别是以点 M、N 为半径的圆,且 Ω 的半径小于 Γ 的半径。Ω 和 Γ 相交于两个不同的点 A 和 B。直线 MN 与 Ω 相交于点 C,与 Γ 相交于点 D,点 C、M、N、D 依次位于直线 MN 上。设点 P 为三角形 ACD 的外心,AP 与 Ω 相交于点 E,与 Γ 相交于点 F,且点 E、F 与点 A 均不重合。点 H 为三角形 PMN 的垂心。
证明经过点 H 且与直线 AP 平行的直线与三角形 BEF 的外接圆相切。
为了方便理解,我们绘制了示意图,但模型在答题过程中是看不到图的。
第三题是函数题。
设 N 为正整数集,若函数 f: N → N 满足对任意正整数 a 和 b,b^a-f ( b ) ^f ( a ) 均能被 f ( a ) 整除,则称该函数是 bonza。
求出使得对任意 bonza 函数 f 和所有正整数 n 均满足 f ( n ) ≤ cn 的最小实常数 c。
第四题考察的是数论。
正整数 N 的 " 真因子 " 指 N 除了自身以外的正因数。
无限序列 a_1,a_2, … . 由正整数组成,其中每个都包含至少 3 个真因子。对任意 n ≥ 1,整数 a_ ( n+1 ) 是 a_n 最大的三个真因子的和。
求出 a_1 所有可能的值。
第五题是一道博弈论问题。
Alice 和 Bazza 正在玩 "inekoalaty" 游戏,这是一个双人游戏,其规则取决于一个双方都知道的正实数 λ。在游戏的第 n 轮(从 n=1 开始)的具体操作如下:
★如果 n 为奇数,Alice 选择一个非负实数 x_n 满足 x_1 + x_2 + … + x_n ≤ λ _n;
★如果 n 为偶数,Bazza 选择一个非负实数 x_n 满足 x ² _1 + x ² _2 + … + x ² _n ≤ n。
如果玩家不能选择出合适的 x_n 则输掉比赛,如果游戏持续进行则没有获胜者,双方都知道彼此选择的数字。
分别求出能让 Alice 和 Bazza 有获胜策略的所有 λ 值。
最后一题则是涉及到图形的组合数学。
有一个由 2025 × 2025 个单位正方形组成的网格。Matilda 希望在网格上放置一些矩形图块,这些图块的大小不同,但每个图块的每一条边都位于网格线上,并且每个单位正方形最多被一个图块覆盖。
网格的每一行和每一列都恰好有一个未被任何瓷砖覆盖的单位正方形,求出 Matilda 需要放置的最少瓷砖数量。
从模型的成绩单可以看出,表现最差的是第 2 和第 6 题,其中第 2 题是平面几何,第 6 题也涉及图形。
结果第 6 题全员零分,第 2 题也只有 Grok4 得了 4%,按 MathArena 采用的七分制来算是 0.28 分。
MathArena 还发现,在第四题中大多数模型采用了与人类大致相似的方法,但存在逻辑失误;而第五题模型虽然能识别出正确的策略但无法进行证明,
人类版 IMO 则预计本周六发布结果,不过 MathArena 预计,即使是表现最强的 Gemini,可能也拿不到奖牌……
参考链接:
[ 1 ] https://matharena.ai/imo/
[ 2 ] https://www.reddit.com/r/singularity/comments/1m2coxy/2025_imointernational_mathematical_olympiad_llm/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见