DeepSeek 再次归来!
就在昨天晚上,DeepSeek 悄悄地上了一个新模型:DeepSeekMath-V2。
这是一个数学方面的模型,也是目前行业首个达到 IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。
奥数金牌 + 开源双爆
根据同步发布的技术论文《DeepSeek Math-V2:迈向可自验证的数学推理》,该模型在 IMO-ProofBench 基准及近期数学竞赛中表现优异,部分性能优于谷歌 Gemini DeepThink 系列。

在 Basic 基准测试中,DeepSeek-Math-V2 得分接近 99%,显著高于 Gemini Deep Think ( IMO Gold ) 的 89%。虽然在 Advanced 子集上 Math-V2 得分略低于 Gemini Deep Think(61.9% vs 65.7%),但整体表现相当接近。
实验结果显示,该模型在 IMO 2025:破解 5 题(共 6 题),达到了金牌水平;CMO 2024(中国数学奥林匹克):达到金牌水平;Putnam 2024:得分 118 接近满分(120 分),超越人类参赛者最高分(90 分)。

DeepSeek 表示,尽管仍有大量工作需要完成,但这些结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学人工智能系统。
推特上,国外开发者直呼这是 " 惊人的发布 ",有评论用 " 鲸鱼归来 " 形容 DeepSeek 的回归。网友指出,DeepSeek 以 10 个百分点优势超越谷歌的 DeepThink 令人意外,并期待其未来推出编程专用模型。


AI 数学推理迈入自验证时代
在头部厂商密集 " 出牌 " 的 11 月,DeepSeek 的亮相堪称精准卡位。
此前 OpenAI 发布 GPT-5.1、xAI 推出 Grok 4.1、谷歌 Gemini 3 系列引爆行业,而 Math-V2 的横空出世,不仅打破了闭源模型在顶级数学推理领域的垄断,更以 Apache 2.0 开源许可证向全球开发者开放权重,让每个人都能自由探索、微调这一金牌级模型 。
DeepSeek-Math-V2 的发布,是开源社区在 AI 数学推理领域的一个重要里程碑。它不仅提供了一个性能强大的模型,更重要的是,它提供了一个可供借鉴和复现的训练范式。
DeepSeek-Math-V2 的技术突破可以用一个简单的比喻来理解:它就像是给 AI 配备了一个 " 内部审查官 "。
在传统模型中,AI 生成一个证明后,我们只能通过最终答案或人工检查来判断对错。但 DeepSeek-Math-V2 引入了一套全新的训练机制:
1. 训练一个准确可靠的验证器 ( Verifier ) :这个验证器专门负责检查定理证明的每一步是否严密、是否存在逻辑漏洞。
2. 让生成器学会自我改进:模型在生成证明的过程中,会主动识别和修正自己证明中的问题,而不是生成后就完事了。
3. 持续提升验证能力:随着生成器变得越来越强,验证器也需要跟上。DeepSeek 通过扩展验证计算量,自动标注那些 " 难以验证 " 的证明,用这些数据继续训练验证器。
行业正密切关注 DeepSeek 下一代旗舰模型的发布计划,期待这条 " 鲸鱼 " 的下一步动向。


登录后才可以发布评论哦
打开小程序可以发布评论哦