驱动之家 前天
基于华为昇腾训练 性能不输英伟达!自家模型爆料:DeepSeek-R2本月要发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 8 月 12 日消息,ChatGPT-5 已经发布,那么国产大模型 DeepSeek 大版本更新也就不远了。

从网友向 DeepSeek 提出的问题看,该模型给出的答案是,DeepSeek-R2 预计将在 2025 年 8 月 15 日至 8 月 30 日之间发布。

在这样的背景下,国产算力链多家公司股价出现了大涨,比如寒武纪直接今天 20cm 涨停,股价创历史新高,市值突破 3550 亿元。

按照之前的说法,DeepSeek-R2 大模型将会采用一种更先进的混合专家模型(MoE),其结合了更加智能的门控网络层(Gating Network)以优化高负载推理任务的性能。

有分析师预计,DeepSeek-R2 的定价可能显著低于 OpenAI 同类产品,预示着其可能颠覆现有 AI 服务的定价模式。

此外,还有相关消息显示,DeepSeek-R2 预计比 GPT-4 成本下降 97%;并且是在昇腾卡上做的训练,主打一个全方位全产业链的自主可控。

据相关人士透露的情况,DeepSeek-R2 的总参数量可能会达到 1.2 万亿,比 DeepSeek-R1 的 6710 亿参数增加大约一倍。

DeepSeek-R2 是一款基于华为昇腾 910B(Ascend 910B)芯片集群训练的模型,在 FP16 精度下达到 512PetaFLOPS 的计算能力,芯片使用效率为 82%。

据华为实验室统计,这个性能相当于英伟达上一代 A100 训练集群的 91% 左右。至于这些是不是真实的,还有待观察,但看起来确实更强大、更自主了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 英伟达 寒武纪 芯片 涨停
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论