DeepSeek开源新数学推理模型，实现奥数金牌水平

日前，DeepSeek 方面开源全新的数学推理模型 DeepSeek-Math-V2。

据了解，该模型在 2025 年国际数学奥林匹克竞赛（IMO 2025）和 2024 年中国数学奥林匹克竞赛（CMO 2024）中取得了金牌水平的成绩，成为第一个在 IMO 级别竞赛中获得金牌水平的开源模型。此外在 2024 年普特南大学生数学竞赛（Putnam 2024）上，该模型取得接近满分（118/120 分）的成绩，超过人类的最高成绩（90 分）。

据 DeepSeek 方面透露，DeepSeek-Math-V2 的部分性能优于谷歌旗下的 Gemini DeepThink。例如在 IMO-ProofBench-Basic 中，DeepSeek-Math-V2 取得近 99% 的高分，而排在第二的 Gemini Deep Think ( IMO Gold ) 分数为 89%。

对此，Hugging Face 联合创始人兼首席执行官 Clement Delangue 表示，" 想象一下，你可以免费拥有世界上最优秀数学家之一的大脑……据我所知，此前没有任何聊天机器人或 API 能让你接触到一个 IMO 2025 金牌水平的模型 "。

值得一提的是，DeepSeek 方面介绍到，为解决大模型虽然擅长在数学基准测试中获得正确答案，但往往缺乏严谨的推理过程这一问题，其针对 DeepSeek-Math-V2 采用了一种创新的自我验证训练框架。

据悉，该方法的核心是训练一个专门的验证器（verifier），其任务是评估证明过程的质量，而不是最终答案的对错。随后这个验证器被用作奖励模型，来引导一个独立的 " 证明生成器 "（proof-generator）。只有当生成器成功识别并修复自身证明中的错误时，它才会获得奖励。

而且为了防止模型过度拟合其自身的检查机制，即只学会欺骗自己的验证器，DeepSeek 方面通过增加计算量和自动标记难以验证的证明，来不断提升验证过程的难度，确保验证器与生成器同步进化。

【本文图片来自网络】

宙世代

一起剪

相关标签