吊打谷歌！DeepSeek开源首个“奥数金牌”AI

DeepSeek 再次归来！

就在昨天晚上，DeepSeek 悄悄地上了一个新模型：DeepSeekMath-V2。

这是一个数学方面的模型，也是目前行业首个达到 IMO（国际奥林匹克数学竞赛）金牌水平且开源的模型。

奥数金牌 + 开源双爆

根据同步发布的技术论文《DeepSeek Math-V2：迈向可自验证的数学推理》，该模型在 IMO-ProofBench 基准及近期数学竞赛中表现优异，部分性能优于谷歌 Gemini DeepThink 系列。

在 Basic 基准测试中，DeepSeek-Math-V2 得分接近 99%，显著高于 Gemini Deep Think ( IMO Gold ) 的 89%。虽然在 Advanced 子集上 Math-V2 得分略低于 Gemini Deep Think（61.9% vs 65.7%），但整体表现相当接近。

实验结果显示，该模型在 IMO 2025：破解 5 题（共 6 题），达到了金牌水平；CMO 2024（中国数学奥林匹克）：达到金牌水平；Putnam 2024：得分 118 接近满分（120 分），超越人类参赛者最高分（90 分）。

DeepSeek 表示，尽管仍有大量工作需要完成，但这些结果表明，自验证数学推理是一个可行的研究方向，可能有助于开发更强大的数学人工智能系统。

推特上，国外开发者直呼这是 " 惊人的发布 "，有评论用 " 鲸鱼归来 " 形容 DeepSeek 的回归。网友指出，DeepSeek 以 10 个百分点优势超越谷歌的 DeepThink 令人意外，并期待其未来推出编程专用模型。

AI 数学推理迈入自验证时代

在头部厂商密集 " 出牌 " 的 11 月，DeepSeek 的亮相堪称精准卡位。

此前 OpenAI 发布 GPT-5.1、xAI 推出 Grok 4.1、谷歌 Gemini 3 系列引爆行业，而 Math-V2 的横空出世，不仅打破了闭源模型在顶级数学推理领域的垄断，更以 Apache 2.0 开源许可证向全球开发者开放权重，让每个人都能自由探索、微调这一金牌级模型。

DeepSeek-Math-V2 的发布，是开源社区在 AI 数学推理领域的一个重要里程碑。它不仅提供了一个性能强大的模型，更重要的是，它提供了一个可供借鉴和复现的训练范式。

DeepSeek-Math-V2 的技术突破可以用一个简单的比喻来理解：它就像是给 AI 配备了一个 " 内部审查官 "。

在传统模型中，AI 生成一个证明后，我们只能通过最终答案或人工检查来判断对错。但 DeepSeek-Math-V2 引入了一套全新的训练机制：

1. 训练一个准确可靠的验证器 ( Verifier ) ：这个验证器专门负责检查定理证明的每一步是否严密、是否存在逻辑漏洞。

2. 让生成器学会自我改进：模型在生成证明的过程中，会主动识别和修正自己证明中的问题，而不是生成后就完事了。

3. 持续提升验证能力：随着生成器变得越来越强，验证器也需要跟上。DeepSeek 通过扩展验证计算量，自动标注那些 " 难以验证 " 的证明，用这些数据继续训练验证器。

行业正密切关注 DeepSeek 下一代旗舰模型的发布计划，期待这条 " 鲸鱼 " 的下一步动向。

宙世代

一起剪

相关标签