格隆汇 14小时前
吊打谷歌!DeepSeek开源首个“奥数金牌”AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

DeepSeek 再次归来!

就在昨天晚上,DeepSeek 悄悄地上了一个新模型:DeepSeekMath-V2。

这是一个数学方面的模型,也是目前行业首个达到 IMO(国际奥林匹克数学竞赛)金牌水平且开源的模型。

奥数金牌 + 开源双爆

根据同步发布的技术论文《DeepSeek Math-V2:迈向可自验证的数学推理》,该模型在 IMO-ProofBench 基准及近期数学竞赛中表现优异,部分性能优于谷歌 Gemini DeepThink 系列。

在 Basic 基准测试中,DeepSeek-Math-V2 得分接近 99%,显著高于 Gemini Deep Think ( IMO Gold ) 的 89%。虽然在 Advanced 子集上 Math-V2 得分略低于 Gemini Deep Think(61.9% vs 65.7%),但整体表现相当接近。

实验结果显示,该模型在 IMO 2025:破解 5 题(共 6 题),达到了金牌水平;CMO 2024(中国数学奥林匹克):达到金牌水平;Putnam 2024:得分 118 接近满分(120 分),超越人类参赛者最高分(90 分)。

DeepSeek 表示,尽管仍有大量工作需要完成,但这些结果表明,自验证数学推理是一个可行的研究方向,可能有助于开发更强大的数学人工智能系统。

推特上,国外开发者直呼这是 " 惊人的发布 ",有评论用 " 鲸鱼归来 " 形容 DeepSeek 的回归。网友指出,DeepSeek 以 10 个百分点优势超越谷歌的 DeepThink 令人意外,并期待其未来推出编程专用模型。

AI 数学推理迈入自验证时代

在头部厂商密集 " 出牌 " 的 11 月,DeepSeek 的亮相堪称精准卡位。

此前 OpenAI 发布 GPT-5.1、xAI 推出 Grok 4.1、谷歌 Gemini 3 系列引爆行业,而 Math-V2 的横空出世,不仅打破了闭源模型在顶级数学推理领域的垄断,更以 Apache 2.0 开源许可证向全球开发者开放权重,让每个人都能自由探索、微调这一金牌级模型 。

DeepSeek-Math-V2 的发布,是开源社区在 AI 数学推理领域的一个重要里程碑。它不仅提供了一个性能强大的模型,更重要的是,它提供了一个可供借鉴和复现的训练范式

DeepSeek-Math-V2 的技术突破可以用一个简单的比喻来理解:它就像是给 AI 配备了一个 " 内部审查官 "。

在传统模型中,AI 生成一个证明后,我们只能通过最终答案或人工检查来判断对错。但 DeepSeek-Math-V2 引入了一套全新的训练机制:

1.  训练一个准确可靠的验证器  ( Verifier ) :这个验证器专门负责检查定理证明的每一步是否严密、是否存在逻辑漏洞。

2.  让生成器学会自我改进:模型在生成证明的过程中,会主动识别和修正自己证明中的问题,而不是生成后就完事了。

3.  持续提升验证能力:随着生成器变得越来越强,验证器也需要跟上。DeepSeek 通过扩展验证计算量,自动标注那些 " 难以验证 " 的证明,用这些数据继续训练验证器。

行业正密切关注 DeepSeek 下一代旗舰模型的发布计划,期待这条 " 鲸鱼 " 的下一步动向。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 谷歌 数学 ai 奥数
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论