11 月 27 日,DeepSeek 推出新型数学推理模型 DeepSeekMath-V2,采用可自我验证的数学推理训练框架。
团队表示,该成果验证了自验证推理路径的可行性,为构建更可靠的数学智能系统提供了新的发展方向。模型代码与权重已在 Hugging Face 及 GitHub 平台开源发布。
该模型基于 DeepSeek-V3.2-Exp-Base 构建,通过 LLM 验证器自动审查生成的数学证明,并利用高难度样本持续优化模型性能。在 2025 年国际数学奥林匹克竞赛(IMO 2025)和 2024 年中国数学奥林匹克竞赛(CMO 2024)中均达到金牌水平,并在 2024 年普特南数学竞赛(Putnam 2024)中取得 118/120(近乎满分)的优异成绩。
技术创新:从最终答案奖励到自我验证
在数学推理与定理证明领域,传统强化学习方法存在根本性局限,它仅通过奖励与标准答案匹配的最终结果来训练模型,却忽视了推理过程的质量。这种方法的缺陷在于,正确答案未必意味着推导过程正确,且许多定理证明任务根本不需要数值答案,而是要求严格的逻辑推导过程。
DeepSeekMath-V2 针对这些问题提出了创新性的解决方案。该系统的核心架构构建了一个自驱动的验证 - 生成闭环:将一个 LLM 作为 " 审稿人 " 担任证明验证器,另一个 LLM 作为 " 作者 " 负责证明生成,两者通过强化学习机制相互协作,并引入 " 元验证 " 层来有效抑制模型幻觉。
关键的技术创新在于元验证机制,通过第二层评估过程来检查验证器识别的问题是否真实存在。实验结果表明,将元验证器的反馈纳入验证器训练后,验证器在证明分析方面的质量评分显著提升,同时保持了证明评分预测的准确性,实现了验证精度与可靠性的双重突破。
自动化标注流程降低人工成本
为解决人工标注成本高昂的难题,研究团队设计了一套高效的自动化评估流程。该体系基于多层验证机制,通过交叉检验与共识决策确保标注的准确性。具体而言,系统会为每个证明生成多轮独立分析,并对识别出的问题进行二次验证,最终依据共识结果进行质量评分。
值得关注的是,在后续训练阶段,这一自动化流程已能完全替代人工标注。质量评估显示,自动化标注结果与专家判断高度一致,证实了该系统能够自主生成高质量训练数据,持续优化模型性能。
这一技术路径的突破性在于构建了完整的自驱动学习生态系统。系统通过验证反馈直接优化生成质量,利用自动化评估处理复杂案例,并持续产生训练数据促进系统迭代。这种创新方法不仅显著降低了人力成本,更证明了在适当技术支持下,人工智能系统能够实现自我演进与持续改进,为下一代自主学习系统的开发奠定了重要基础。
基准测试展现领先性能
在自主构建的 91 个 CNML 级别问题测试中,DeepSeekMath-V2 展现出卓越的数学推理能力,在代数、几何、数论、组合学和不等式等所有类别中均超越了 GPT-5-Thinking-High 和 Gemini 2.5-Pro 的表现。
在 IMO-ProofBench 基准测试中,该模型同样表现优异:在基础集上,其人工评估结果优于 DeepMind 的 DeepThink(IMO 金牌水平);在更具挑战性的高级集上,模型保持了强劲的竞争力,同时显著超越了所有其他基准模型。
特别值得关注的是验证机制的有效性:对于未完全解决的问题,生成器能够准确识别证明过程中的真实缺陷;而对于完全解决的问题,则成功通过了全部 64 次验证尝试。这一结果表明,基于大语言模型的验证器确实能够有效评估那些传统上被认为难以自动验证的复杂数学证明,为自动化数学推理系统的发展提供了重要技术支撑。


