陶哲轩力推AlphaEvolve：解决67个不同数学问题，多个难题中超越人类最优解

陶哲轩又来安利 AlphaEvolve 了。

在与 DeepMind 高级工程师 Bogdan Georgiev 等人合著的新论文中，陶哲轩称其为数学发现的有力新工具。

具体来说，他们用 AlphaEvolve 研究了 67 个数学问题，涵盖组合数学、几何、数学分析与数论等多个领域。

结果发现，AlphaEvolve 在可扩展性、鲁棒性、可解释性方面均优于传统工具。

更关键的是，AlphaEvolve 已经可以自主发现新颖的数学构造，并在部分问题上超越人类已有的最优结果。

AI 自主发现新数学构造

AlphaEvolve 在 67 个问题的测试中，不仅复现了众多已知最优解，更在多个方面展现了其独特的发现能力。

一个关键的成就是 AlphaEvolve 能够自主发现人类未曾一窥的新数学构造。

例如在处理 Nikodym 集问题时，系统生成的初步构造虽然尚未达到最优，但它为人类研究者提供了 " 一个极好的人类直觉跳板 " 。

基于 AI 提供的结构，研究人员通过人工简化和直觉推演，最终找到了一个更优的构造，改进了已知的上界，这一人机协作的成果将作为一篇独立的数学论文发表。

同样地，在算术 Kakeya 猜想中，AlphaEvolve 也发挥了类似作用。

系统不仅将一个已知的下界从 1.61226 提升至 1.668，其构造的解（形态上类似于离散高斯分布）还启发人类数学家建立了新的渐近关系，相关成果也即将发表。

这种启发人类研究的能力，与 AlphaEvolve 输出结果的可解释性紧密相关。

系统在大多数情况下生成的是结构清晰的程序代码，而非难以理解的黑盒结果，这使得人类专家可以方便地分析、归纳其发现的模式，并提炼出通用的数学公式。

积木堆叠问题便是这一特性的绝佳体现。

在该问题中，系统最初生成了一个逻辑正确的递归程序来计算积木的放置。在随后的演化中，系统内部的 LLM 分析了这段代码的逻辑，并自主将其重构为一个更简洁、高效的显式程序。

这个最终程序清晰地揭示了最优解与谐波数（harmonic numbers）之间的数学关系，这与人类已知的理论公式完全一致，展示了系统从复杂解法中提炼数学本质的能力。

除了方案的清晰性，AlphaEvolve 在不同类型的问题设置下也表现出了强大的鲁棒性。

它能够有效处理高维度参数空间、复杂的几何约束以及基于蒙特卡洛模拟的近似评分函数。

比如这里有一个最小三角形密度问题。

研究人员最初设计了一个朴素的评分函数，但系统很快利用了该问题空间的非凸性，通过 " 欺骗 " 评分函数获得了超越理论最优的不可能分数。

为了解决这个问题，研究人员设计了一个更鲁棒的新评分函数，该函数基于问题的利普希茨连续性（Lipschitz type bounds）构造。

在切换到这个更复杂的连续评分函数后，AlphaEvolve 不再受局部陷阱的迷惑，迅速收敛到了已知的、正确的理论最优解。

并且 AlphaEvolve 具备了出色的泛化能力，来看 IMO 2025 的第 6 题。

研究人员只在输入 n 为完全平方数时才对系统进行评分。这种 " 信息限制 " 反而迫使 AlphaEvolve 去寻找这些稀疏实例背后的共同结构模式，而不是对每个 n 进行 " 过拟合 "。

最终，系统成功发现并输出了在所有完全平方数 n 上均达到最优的通用构造，展现出了归纳能力。

在实际应用中，AlphaEvolve 的效率极高，仅需少量高质量提示即可驱动。论文指出，来自领域专家的提示（expert guidance）往往能显著提升最终构造的质量，表明系统对人类输入具有高度的敏感性。

同时，该系统在架构上支持并行化，允许研究人员在多个问题实例或同一问题的不同参数设置上同时运行探索，并能自动迁移成功的搜索策略，这在处理多参数的几何类问题时尤其高效。

AlphaEvolve 工作模式

AlphaEvolve 并非一个单一流程的系统，而是通过不同 " 工作模式 " 适应不同类型的数学问题探索任务。

该系统主要在两种不同的模式下运行—— " 搜索模式 "（search mode）和 " 泛化模式 "（generalizer mode）。

" 搜索模式 " 是系统最常用的模式，其目标是高效地发现最优的数学构造，而不必关心构造过程是否具有可解释性或普适性。在这种模式下，AlphaEvolve 演化的不是直接生成构造的程序，而是演化用于搜索构造的程序。

每一个被演化的程序本身就是一个 " 搜索启发式算法 "（search heuristic）。

评估器会给予这些启发式算法一个固定的时间预算，算法的得分取决于它在此预算内能找到的最佳构造的质量。

这种方式解决了 LLM 调用（缓慢且昂贵）与传统局部搜索（快速且廉价）之间的速度差异——一次缓慢的 LLM 调用用于生成一个高效的搜索策略，该策略随后可以触发大规模的廉价计算，自主探索数百万个候选构造。

系统演化的是一系列 " 改进器 "（improver）函数，它们动态地适应搜索进程，早期可能偏好进行广泛探索的启发式算法，而当接近最优解时，则会演化出更精细的、针对特定问题进行优化的算法。

" 泛化模式 " 则更具挑战性。

其目标是让 AlphaEvolve 编写一个能够解决任意给定参数 n 的问题的通用程序。系统的评估方式是考察该程序在一系列不同 n 值上的综合表现。

这种模式的期望是，通过让系统观察自己在小规模 n 上找到的最优解，它能够自主 " 发现模式 "，并将其归纳推广为一个适用于所有 n 的通用公式或算法。

总之，AlphaEvolve 展示了 AI 引导的演化搜索如何补充人类的直觉，为数学研究提供了一个强大的新范式。

论文地址：

https://arxiv.org/abs/2511.02864

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

年度科技风向标「2025 人工智能年度榜单」申报即将于 11 月 17 日截止！点击了解详情

❤️‍ 企业、产品、人物 3 大维度，共设立了 5 类奖项，最后时刻一起冲刺

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签