全天候科技 11小时前
第1个获得数学奥赛金牌的开源模型!DeepSeek新模型获网友盛赞:公开技术文件,了不起!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

DeepSeek 最新发布的开源数学模型,正将其推向与 OpenAI 和谷歌等科技巨头同场竞技的舞台 DeepSeekMath-V2 的模型,在被誉为全球最难的高中数学竞赛中达到了金牌水平,成为首个实现这一成就的开源模型,标志着开源人工智能在复杂推理能力上的一次重大突破。

昨日 DeepSeek 宣布推出其最新的数学推理模型 DeepSeekMath-V2,该模型在模拟的 2025 年国际数学奥林匹克竞赛(IMO)中解决了 6 个问题中的 5 个,达到了金牌水平。这一成就使其成为第一个在 IMO 级别竞赛中获得金牌的开源模型,引发了 AI 研究和开发者社区的高度关注。

这一表现直接对标了行业巨头。就在今年 7 月,谷歌 DeepMind 的 Gemini 高级版本和一个来自 OpenAI 的实验性推理模型也达到了 IMO 2025 的金牌标准,同样解决了 5 个问题,它们是首批达到该水平的人工智能模型。然而,与谷歌和 OpenAI 的闭源实验模型不同,DeepSeekMath-V2 的模型权重根据 Apache 2.0 许可证公开发布,可供公众下载。

值得一提的是,DeepSeekMath-V2 采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的 " 验证器 "(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。而且为了防止模型过度拟合其自身的检查机制,DeepSeek 通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

此举被视为人工智能民主化的重要一步。该模型的发布不仅证明了开源社区有能力在尖端 AI 研究领域追赶甚至比肩顶级闭源实验室,也可能再次引发了市场对于开源模型是否会侵蚀闭源产品商业护城河的讨论——这一话题曾一度动摇投资者对英伟达等 AI 巨头的信心。

跻身顶尖行列:与 OpenAI 和谷歌同台竞技

DeepSeekMath-V2 的卓越表现,标志着其在复杂的数学推理领域,与全球领先的 AI 实验室站在了同一起跑线上。国际数学奥林匹克竞赛(IMO)通常被认为是全球难度最高的高中生数学竞赛,在 2025 年的竞赛中,630 名人类参赛者中仅有 72 人获得金牌。

除了在 IMO 2025 取得的成就,该模型还在其他高难度数学竞赛中展现了顶级水平。据 DeepSeek 称,它在中国最顶尖的全国性竞赛——中国数学奥林匹克(CMO)中也达到了金牌水平。

在面向大学本科生的普特南数学竞赛(Putnam 2024)中,该模型在 12 道题中完全解决了 11 道,另一道题也仅有微小错误,最终得分 118/120,超过了人类参赛者 90 分的最高分记录。

开源的里程碑:社区盛赞 " 了不起的发布 "

与谷歌和 OpenAI 尚未公开的实验模型相比,DeepSeekMath-V2 的核心吸引力在于其彻底的开放性。该模型的权重已在开源社区 Hugging Face 上发布,允许研究人员和开发者自由下载。

Hugging Face 的联合创始人兼首席执行官 Clement Delangue 在社交平台 X 上盛赞道:" 想象一下,你可以免费拥有世界上最优秀数学家之一的大脑。"

他补充说," 据我所知,此前没有任何聊天机器人或 API 能让你接触到一个 IMO 2025 金牌水平的模型。" 他强调,用户可以不受限制地探索、微调、优化模型,并运行在自己的硬件上," 没有任何公司或政府可以收回它。这是人工智能和知识民主化的最佳体现。"

另一位网友 elie 也评论称:"DeepSeek Math V2 是第一个在 IMO 上达到金牌水平的开源模型吗?而且我们还得到了技术报告,这真是一次了不起的发布。"

还有网友评论称,他们喜欢 5-7 个想法,每个想法都相对简单,不断堆叠,结果出乎意料地越来越好,看起来更像工程而不是研究。

自我验证框架:超越答案,关注推理过程

DeepSeek 在技术报告中指出,近期的人工智能模型虽然擅长在数学基准测试中获得正确答案,但往往缺乏严谨的推理过程。报告写道:" 许多像定理证明这样的数学任务,需要严谨的逐步推导,而非仅仅一个数值答案。"

为了解决这一问题,DeepSeekMath-V2 采用了一种创新的自我验证训练框架。该方法的核心是训练一个专门的 " 验证器 "(verifier),其任务是评估证明过程的质量,而不是最终答案的对错。随后,这个验证器被用作奖励模型,来引导一个独立的 " 证明生成器 "(proof-generator)。只有当生成器成功识别并修复自身证明中的错误时,它才会获得奖励。

这种机制激励模型在最终确定答案之前,尽可能多地发现和解决自身推理链条中的问题。DeepSeek 强调," 对于没有已知解决方案的开放性问题,自我验证在扩展测试时计算(test-time compute)方面尤为重要。" 测试时计算指的是在推理阶段分配大量计算资源,让模型有更长时间进行推理、探索多种解决方案并完善答案。

动态进化系统:破解 " 自我过度拟合 " 难题

为了防止模型过度拟合其自身的检查机制——即只学会欺骗自己的验证器—— DeepSeek 采用了一种动态进化的策略。该团队通过增加计算量和自动标记难以验证的证明,来不断提升验证过程的难度,确保验证器与生成器同步进化。

DeepSeek 在技术文件中解释,这种方法允许他们 " 扩展验证计算,以自动标记新的、难以验证的证明,从而创造新的训练数据来进一步改进验证器。" 通过这种验证 - 生成闭环和元验证机制,模型能够实现全自动化的数据标注和持续的性能优化,验证了自驱动学习系统在解决复杂数学推理任务上的可行性。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 开源 数学 竞赛
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论