智东西 5小时前
刚刚,DeepSeek开源新模型,拿下奥数证明题冠军
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

可自我验证的 AI 系统,离解决研究级数学问题更进一步。

智东西 11 月 27 日报道,今日,DeepSeek 开源了 " 奥数金牌级 " 模型DeepSeekMath-V2,该模型具备强大的定理证明能力

DeepSeekMath-V2 在 2025 年国际数学奥林匹克竞赛(IMO 2025)和 2024 年中国数学奥林匹克竞赛(CMO 2024)上取得了金牌水平的成绩;并在 2024 年普特南大学生数学竞赛(Putnam 2024)上取得了接近满分(118/120 分)的成绩,超过人类最高的90 分成绩。

DeepSeekMath-V2 在数学竞赛中的成绩表现

如下图所示,DeepSeekMath-V2 以 10% 的优势击败谷歌的 IMO 金奖得主 DeepThink 模型。

DeepSeekMath-V2 在 IMO-ProofBench 的测评结果

上述结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学 AI 系统。

Hugging Face 地址: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2 论文地址: https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf

按惯例,DeepSeek 往往会将新开源的模型直接上线 DeepSeek,我们第一时间尝试进行了体验。

首先让 DeepSeek 证明一道较简单的题目 " 证明根号 2 为无理数 ",DeepSeek 快速给出了正确答案。

当智东西输入 " 证明奇数和偶数哪个多?" 这一证明题,DeepSeek 也给出了正确证明过程和答案,这一证明过程大部分人应该可以看懂。当然,奥数级证明题会更加复杂,如果有能够看懂理解这类题目的读者,可以再进一步进行体验测试。

回到模型背后的研发问题,我们来具体看看论文内容,从已有的研究来看,在数学推理领域,强化学习(RL)传统方法足以让大模型在主要评估最终答案的数学竞赛(如 AIME 和 HMMT)中达到很高的水平。然而这种奖励机制存在两个根本性的局限性:

首先,传统方法不能可靠地代表推理的正确性,模型可能通过有缺陷的逻辑或侥幸的错误得出正确答案。

其次,它不适用于定理证明任务,在这类任务中,问题可能不需要生成数值形式的最终答案,而严谨的推导才是主要目标。

为此,DeepSeek 建议在大型语言模型中开发证明验证能力,基于 DeepSeek-V3.2-Exp-Base 开发了 DeepSeekMath-V2。他们让模型明确了解其奖励函数,并使其能够通过有意识的推理而非盲目的试错来最大化这一奖励。

DeepSeek 制定了用于证明评估的高级评分标准,目的是训练一个验证器,使其能根据这些评分标准对证明进行评估,模拟数学专家的评估过程。以 DeepSeek-V3.2-Exp-SFT 的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。

然后是构建强化学习数据集。DeepSeek 基于 17503 道竞赛题目、DeepSeek-V3.2-Exp-Thinking 生成的候选证明、带专家评分的随机抽取的证明样本,构建了初始强化学习训练数据集。

紧接着,其设置了强化学习目标和训练验证器的强化学习目标。具体是以 DeepSeek-V3.2-Exp-SFT 的一个版本为基础,通过强化学习训练模型生成证明分析,训练过程使用了两个奖励组件:格式奖励和分数奖励。而后通过下列函数完成训练验证器的强化学习目标。

为了解决训练过程中 " 验证器可能通过预测正确分数同时虚构不存在的问题来获得全部奖励 " 这一漏洞,DeepSeek 引入了一个二次评估过程——元验证(meta-verification),从而提高验证器识别问题的忠实度。

在证明生成阶段,DeepSeek 进行了证明生成器的训练,并通过自我验证增强推理能力,解决模型被要求一次性生成并分析自己的证明时 " 生成器不顾外部验证器判错而宣称证明是正确的 "。

最后,DeepSeek 证明验证器和生成器形成了一个协同循环:验证器改进生成器,而随着生成器的改进,它会生成新的证明,这些证明对验证器当前的能力构成挑战,这些挑战也成为增强验证器自身的宝贵训练数据。

简单来说,DeepSeekMath-V2 模型中的验证器能完成逐步检查证明过程,而生成器则会修正自身的错误。

从实验结果来看,在单步生成结果评估中,如图 1 所示,在 CNML 级别的所有问题类别(代数、几何、数论、组合数学和不等式)中,DeepSeekMath-V2 始终优于 GPT-5-Thinking-High 和 Gemini 2.5-Pro,展现出在各领域更卓越的定理证明能力。

在带自我验证的顺序优化中,其对 2024 IMO 备选题进行连续优化后,证明质量提升。自选的最佳证明比线程平均值获得了显著更高的验证分数,这表明生成器能够准确评估证明质量。这些结果证实,其生成器能够可靠地区分高质量证明和有缺陷的证明,并利用这种自我认知系统地改进其数学推理能力。

在高计算量探索中,DeepSeek 扩大了验证和生成计算的规模,他们的方法解决了 2025 IMO 的 6 道题中的 5 道,以及 2024 CMO 的 4 道题,另外 1 道题获得部分分数,在这两项顶尖高中竞赛中均达到金牌水平,在基础集上优于 DeepMind 的 DeepThink(IMO 金牌水平),在高级集上保持竞争力,同时大幅优于所有其他基线模型。

但 DeepSeek 发现,最困难的 IMO 级别问题对其模型来说仍然具有挑战性。

值得注意的是,对于未完全解决的问题,DeepSeek 的生成器通常能在其证明过程中识别出真正的问题,而完全解决的问题则能通过所有 64 次验证尝试。这表明,我们能够成功训练基于大语言模型的验证器,以评估那些此前被认为难以自动验证的证明。通过在验证器的指导下增加测试时的计算量,DeepSeek 的模型能够解决那些需要人类竞争者花费数小时才能解决的问题。

结语:可自我验证的 AI 系统,离解决研究级数学问题更进一步

总的来说,DeepSeek 提出了一个既能生成又能验证数学证明的模型。团队突破了基于最终答案的奖励机制的局限性,迈向了可自我验证的数学推理。

这项工作证实,大语言模型能够培养出针对复杂推理任务的有意义的自我评估能力。尽管仍存在重大挑战,这一研究方向有望为创建可自我验证的 AI 系统解决研究级数学问题这一目标做出贡献。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

奥数 开源 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论