全天候科技 04-30
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

就在所有人都在期待 DeepSeek 官宣 R2 大模型之际,公司却出其不意地在 " 五一 " 前夕投下了另一枚技术炸弹。

4 月 30 日,DeepSeek 在 Hugging Face 平台上悄然开源了其最新模型—— DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。

DeepSeek-Prover-V2-671B使用了 DeepSeek-V3 架构,参数高达 6710 亿,采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层。

模型使用了更高效的 safetensors 文件格式,同时支持 BF16、FP8、F32 等多种计算精度,这使得模型可以更快、更省资源地进行训练和部署。据 OSCHINA 分析,该模型分为 163 个分片,每个分片大小约为 4.3GB,充分证明了其规模之庞大。

值得注意的是,3 月发布的 V3-0324 版本已被业内视为未来 R2 的基础模型。这一版本通过 6850 亿参数的 MoE 架构升级,代码能力获得相比显著增强。

数学 AI 的重磅升级:DeepSeek 再开源 6710 亿参数模型

从技术层面来看,DeepSeek-Prover-V2-671B 使用了 DeepSeek-V3 架构,采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层。更令人惊叹的是,其最大位置嵌入达到了 16.38 万,这意味着它能够处理极其复杂的数学证明问题。

DeepSeek-Prover 是 DeepSeek 团队开发的一系列专注于数学定理证明的开源大语言模型,通过大规模合成数据训练并结合强化学习(RL)与蒙特卡洛树搜索(MCTS)等优化技术,在形式化定理证明领域取得了显著进展。

DeepSeek-Prover 通过创新的训练框架与高效的推理策略,在形式化数学证明领域树立了新标杆。其结合合成数据、强化学习与树搜索的技术路径,不仅提升了模型性能,也为 AI 在严谨数学推理中的应用开辟了新方向。

OSCHINA 分析称,新模型具有以下特点:

模型规模巨大:参数量约为 671B(6710 亿参数),这从模型分片数量(163 个)和每个分片大小(约 4.3GB)可以看出

使用了 DeepSeek-V3 的架构:采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层

专为数学定理证明优化:从名称 "Prover"(证明者)可以看出,这是一个专注于数学推理和定理证明的专业模型

支持超长上下文:最大位置嵌入达 163840,使其能处理复杂的数学证明

采用 FP8 量化:通过量化技术减小模型大小,提高推理效率

DeepSeekR2 还会远吗?

DeepSeek 创始人梁文锋曾表示:" 中国也要逐步成为创新贡献者,而不是一直搭便车。" 他将探索通用人工智能的本质作为核心使命。

根据《中国企业家》的报道,DeepSeek 创始人梁文锋带领的 AI 团队一直保持着与国际巨头同步的产品迭代节奏—— 2024 年 9 月推出 V2.5 版本,12 月发布 V3 基础架构,次年 3 月升级至 V3-0324 版本,形成每季度重大更新的开发范式。

值得注意的是,3 月发布的 V3-0324 版本已被业内视为未来 R2 的基础模型。这一版本通过 6850 亿参数的 MoE 架构升级,代码能力获得显著增强。

如此稳健而高效的产品迭代节奏,不禁让人思考:传言已久的 DeepSeek R2 大模型还会远吗?这款新的数学模型是否只是 DeepSeek 即将发布更大规模通用模型的前奏?

在社交平台 X 上,有网友表示:

"R2 指日可待 ......"

" 昨天 Qwen 3,今天 DeepSeek Prover V2..."

还有测评称,在实际效果上," 在高中数学题测试中,成功率从 50% 提高到了 63.5%。"

"V1.5 还只是参数只有 7B 的小模型,这次直接升到大模型。"

" 中国的 AI 初创公司永远不会让人失望!他们真的在改变整个游戏规则!"

" 中国最近正在将一些功夫应用于 AI"

" 这是个令人兴奋的消息!"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数学 开源 炸弹
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论