量子位 1小时前
45年数论猜想被GPT-5.2 Pro独立完成证明,陶哲轩:没犯任何错误
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

AI 证明数学猜想,这次来真的了。

OpenAI 最新模型 GPT-5.2 Pro 刚刚独立证明了一道埃尔德什猜想。

论证过程经菲尔兹奖得主陶哲轩验证成立,还被评价为 " 迄今为止最明确的第一类结果(AI 主要贡献)"。

这道题是埃尔德什问题库中的第 281 号,由传奇数学家保罗 · 埃尔德什(Paul Erd ő s)与罗纳德 · 格雷厄姆(Ronald Graham)于 1980 年共同提出,涉及同余覆盖系统与自然密度的深层关系。

45 年来,这道题一直静静躺在问题库里,等待解答。

直到 2025 年 1 月 17 日,一位名叫 Neel Somani 的研究者把这道题扔给了 GPT-5.2 Pro。

证明只用到 GPT 5.2 Pro

埃尔德什问题网站已收录 AI 证明结果。

整个论证在无穷阿德尔整数环上展开,借助哈尔测度和点态遍历定理,结合紧致性论证完成了从逐点收敛到一致收敛的跃迁。

按陶哲轩的话说,它是 "Furstenberg 对应原理 " 的一个变体,这是遍历理论与组合数学交叉领域的标准工具。

但 GPT-5.2 Pro 的用法又有些不同,它比通常的论证更依赖伯克霍夫定理。

然而真正让陶哲轩印象深刻的不是证明方法本身,而是 AI 没有犯错。

让我更惊讶的是它避免了错误,比如极限交换或量词顺序的失误,这正是这道题最容易踩的坑。前几代大语言模型几乎肯定会在这些微妙之处栽跟头。

为了验证这份证明,陶哲轩亲自动手,把整套遍历论论证翻译成了组合学语言,用哈代 - 利特尔伍德极大不等式替代伯克霍夫定理,重新走了一遍全部推导。

结论:证明成立。

一个意外的发现

正当大家讨论 GPT-5.2 Pro 的证明时,一位网名 KoishiChan 的用户在评论区抛出了一个令人意外的发现:

这道题其实有更简单的解法,而且所需的两个定理早在 1936 年和 1966 年就已经存在了。

第一个是达文波特(Harold Davenport)与埃尔德什本人在 1936 年合作证明的密度收敛定理。

第二个是罗杰斯定理,首次发表于 1966 年的哈尔伯斯塔姆 - 罗斯专著《序列》第五章。把这两个经典结果拼在一起,第 281 号问题几乎是直接推论。

这就奇怪了。埃尔德什自己就是 1936 年那篇论文的合著者,而他在 1980 年提出这道题时,都没有意识到答案近在眼前。

陶哲轩就此事专门写邮件请教了法国数学家特南鲍姆(Tenenbaum)。

特南鲍姆确认 " 只要满足你提到的两个经典结果(达文波特 - 埃尔多斯定理和罗杰斯定理),问题就能立即得到解决 ",但他也猜测 " 问题的表述可能在某个环节被改动过 "。不过目前没有人找到任何其他版本的表述,所以只能按原样处理。

更有意思的是,2007 年菲拉塞塔、福特、科尼亚金、波默朗斯和余等五位顶尖专家在解决另一道埃尔德什问题时,同样不知道罗杰斯定理的存在,直到特南鲍姆提醒他们才补上了引用。

陶哲轩感慨:" 罗杰斯定理没有得到它应有的传播。它只出现在哈尔伯斯塔姆 - 罗斯那本书里,没有单独发表,文献引用寥寥无几。或许这场讨论能让更多研究筛法和同余覆盖的人注意到这个结果。"

最终现在这道题有了两份证明:一份来自 GPT-5.2 Pro 的遍历论路径,一份来自 KoishiChan 挖出的经典文献组合。

陶哲轩确认两者是 " 不同的证明 ",虽然在概念上有些重叠。

如何评估 AI 数学的真实成功率

消息传开后,各路 AI 模型纷纷被拉来交叉验证。

Gemini 3 Pro 表示证明没有问题。另一位研究者用 GPT-5.2 Pro 反复检查论证细节,AI 认为唯一需要补充严格性的地方在第二步,可以用法图引理绕过遍历论直接完成。

不过陶哲轩指出这里法图引理的方向用反:我刚教完研究生测度论,这类错误见得太多了。

随后又确认其实是对补集应用法图引理,方向没问题,论证成立。

但陶哲轩同时发出了冷静的提醒。他写道:

评估 AI 工具真实成功率时,最大的统计偏差来自强烈的报告偏差,负面结果几乎不会被披露。

如果某人或某 AI 公司把工具用在开放问题上但没有进展,他们没有动力报告这个负面结论;即使报告了,也不太可能像正面结果那样在社交媒体上传播开来。

尽管绝大多数集中在难度谱系的简单一端,远不能说明中等难度的埃尔德什问题已经进入 AI 的射程范围。

他推荐了 Paata Ivanisvili 和 Mehmet Mars Seven 发起的一个开源项目,系统记录前沿大语言模型在埃尔德什问题上的正面和负面结果。

数据显示,这些工具在埃尔德什问题上的真实成功率大约只有百分之一到二。

但考虑到问题库里有超过 600 道未解难题,这个比例仍然意味着一批数量可观且非平凡的 AI 贡献。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

陶哲轩 ai 哈尔 伯克 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论