三易生活 5小时前
DeepSeek开源新数学推理模型,实现奥数金牌水平
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

日前,DeepSeek 方面开源全新的数学推理模型 DeepSeek-Math-V2。

据了解,该模型在 2025 年国际数学奥林匹克竞赛(IMO 2025)和 2024 年中国数学奥林匹克竞赛(CMO 2024)中取得了金牌水平的成绩,成为第一个在 IMO 级别竞赛中获得金牌水平的开源模型。此外在 2024 年普特南大学生数学竞赛(Putnam 2024)上,该模型取得接近满分(118/120 分)的成绩,超过人类的最高成绩(90 分)。

据 DeepSeek 方面透露,DeepSeek-Math-V2 的部分性能优于谷歌旗下的 Gemini DeepThink。例如在 IMO-ProofBench-Basic 中,DeepSeek-Math-V2 取得近 99% 的高分,而排在第二的 Gemini Deep Think ( IMO Gold ) 分数为 89%。

对此,Hugging Face 联合创始人兼首席执行官 Clement Delangue 表示," 想象一下,你可以免费拥有世界上最优秀数学家之一的大脑……据我所知,此前没有任何聊天机器人或 API 能让你接触到一个 IMO 2025 金牌水平的模型 "。

值得一提的是,DeepSeek 方面介绍到,为解决大模型虽然擅长在数学基准测试中获得正确答案,但往往缺乏严谨的推理过程这一问题,其针对 DeepSeek-Math-V2 采用了一种创新的自我验证训练框架。

据悉,该方法的核心是训练一个专门的验证器(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。随后这个验证器被用作奖励模型,来引导一个独立的 " 证明生成器 "(proof-generator)。只有当生成器成功识别并修复自身证明中的错误时,它才会获得奖励。

而且为了防止模型过度拟合其自身的检查机制,即只学会欺骗自己的验证器,DeepSeek 方面通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

【本文图片来自网络】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

数学 开源 竞赛 首席执行官
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论