IMO 金牌已经 " 过时 " 了。
基于 Gemini 3 Deep Think 的谷歌数学智能体Aletheia在更难的挑战赛FirstProof中拿下的最佳成绩。
在公布的完整成绩单中,10 道题 Aletheia 全程0 人工参与解出 6 道,其中 5 题专家全票通过,还有一题拿到了 5/7 的通过率。

FirstProof 是由来自哈佛、斯坦福等名校的 11 位顶尖数学家联手打造的一套专门验证 AI 独立科研能力的数学题集。
10 道题全网无迹可循,没法儿背答案作弊,连陶哲轩都转发说这事儿非常有意思,推荐关注。

不止谷歌,OpenAI 内部模型也考了这套题,基本正确的有 5 题。
但是!谷歌全程 AI 自主,OpenAI 在考试过程中动用了人工来挑最佳答案(doge)。
谷歌略胜一筹
FirstProof 由来自哈佛、斯坦福等名校的 11 位顶尖数学家出题。
和 IMO 这类竞赛题不同,最新挑战赛的 10 道题不是标准化的竞赛题,而是直接扒自数学家们真实遇到的难题,之前从没任何公开发布过。
而且,答案都是在 AI 考完之后才放出来的,这样就切断了 AI 通过背答案套模板的可能。
先看成绩单,OpenAI 冲刺七天,在 5 个问题上基本正确,分别是:
4. 有限加性卷积与 Φ ₙ的调和平均不等式;
5. O- 适配切片滤过与切片连通性的几何不动点判据;
6. 大规模 ε - 轻顶点子集;
9. 缩放四线性行列式张量之间的代数关系;
10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条件的无矩阵 PCG 方法。
其实,初期 OpenAI 公布的成绩单有 6 题,结果第 2 题(非阿基米德局部域上 GL ₙ的 Rankin – Selberg 积分非零性判定)反复被社区指出有逻辑问题,于是团队保守改成 5 道。

不过,团队透露在在测试过程中人工协调了该模型与 ChatGPT 之间的交流,用于验证、格式整理与风格调整。
有个别问题最终呈现的是人工挑选的最佳结果。
谷歌 Aletheia 这边,6 道题全都自主拿下,包括 OpenAI 被质疑的第 2 题。
在专家评审中,在 2、5、7、9、10 题获专家全票通过。
其中,第 7 题是公认的本套题集中难度最高的一题,是一个公开未解决的问题,直至本次 FirstProof 挑战赛发布标准答案时,才由 Cappell – Weinberger – Yan 团队完成首次解决。
第 8 题虽然没全票通过,但也拿到了 5/7 的高分。
对应的题目分别是:
2. 非阿基米德局部域上 GL ₙ的 Rankin – Selberg 积分非零性判定;
5. O- 适配切片滤过与切片连通性的几何不动点判据;
7. 含 2- 挠率的实半单群一致格的紧流形基本群可实现性;
8. 多面体拉格朗日曲面的 4- 顶点 Lagrangian 光滑化存在性;
9. 缩放四线性行列式张量之间的代数关系;
10. 含缺失数据的核化 CP – ALS 子问题:基于 Kronecker 预条件的无矩阵 PCG 方法。
要从解题数量和模式来看的话,谷歌 Aletheia 不仅解题数多 1 个,相比之下还靠 AI 全程自主略胜一筹。

接下来,咱继续看看 Aletheia 到底是个什么打法。
AI 自主最佳二选一
首先,底层模型就是之前拿了 IMO 金牌的 Gemini 3 Deep Think。
Aletheia 搭载了 AB 两个版本的 Gemini 3 Deep Think 模型,来了个最优二选一。(A 是 2026 年 2 月的最新版,B 是 2026 年 1 月的版本。)
然后是从读题到交卷的真 · 0 人工干预解题流程。
Aletheia 能直接读取不经过人类格式化的原始问题,自主推理后输出答案。
再通过内置的验证与提取提示自动校验答案的逻辑严谨性和规整格式,最终直接吐出 LaTeX 形式答案。
而且,剩下的没解出来的 4 道题倒也不是错了,而是直接 " 拒答 "。
这是由于由于含智能筛选机制,当 Aletheia 无法生成可靠的证明时,模型不会胡编乱造生成无效答案,而是直接输出 " 无解决方案 " 的回复。

Aletheia 还能动态调整推理资源的分配,比如遇到超难的第 7 题,它能自动投入远超常规题的推理算力,通过 Generator 子 agent 多轮生成 +Verifier 子 agent 严格校验,最终攻克。
而简单题则合理控制算力,避免资源浪费。
比如面对第 10 题这种张量分解的数值型题时,Aletheia 给出了矩阵 - 向量成绩高效计算的方法。
不直接生成超大维度的 Khatri-Rao 乘积矩阵 Z,而是通过动态生成所需行的方式,将每轮迭代的复杂度压缩到 O ( qr+n ² r ) ,比传统线性 solver 的 O ( n ³ r ³ ) 快几个量级。
这波谷歌略胜一筹,下一轮问题集 3 月中旬就要来了,难度只会更高,咱拭目以待~
参考链接:
[ 1 ] https://x.com/lmthang/status/2021644542852968952
[ 2 ] https://mathstodon.xyz/@tao/116022211452443707
[ 3 ] https://x.com/polynoamial/status/2022527227049742779
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦