驱动之家 9小时前
DeepSeek V4推理性能分析:NV华为最优 AMD实现100x提升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 6 月 10 日消息,作为开源 AI 大模型的中坚力量,DeepSeek V4 的问世不只是多了一个大模型,而是各大 AI 生态圈的一次考验,谁能率先支持 DeepSeek V4 谁家的生态就有更大优势。

SemiAnalysis 日前发了一篇长文分析了 V4 的推理性能,对比了目前常见的 AI 生态圈,包括 NVIDIA、华为、AMD 及各自的 CUDA、ROCm、CANN,以及第三方社区开源的各种方案。

综合下来,目前最强、最优的还是 NVIDIA 的 CUDA 平台 vLLM 及 SGLang 框架,V4 发布当天就能 Day0 支持,哪怕是最新的硬件 GB200/300 也是开箱可用的水平。

华为的昇腾生态在这个问题上也不弱于 CUDA,昇腾 950DT+CANN 框架也是发布当天 Day0 支持,硬件及软件上都可以做到全栈支持。

这两个生态是最优的,要知道以往不论国内外大模型,基本上只有 NVIDIA 的 CUDA 生态可以做到 Day0 全栈支持,显然 V4 在开发阶段就针对国产 AI 平台做了适配及优化,这一点也确实做到了。

AMD 的硬件及 ROCm 生态指标都不错,但在 V4 的 Day0 支持上拉跨了,MI355X 显卡刚开始只能跑 FP8,性能很差,但 AMD 的 SGLang 团队追赶得极快,26 天时间里就把性能提升了 100x 倍。

综合 SemiAnalysis 的分析来看,NVIDIA 的 CUDA 生态圈肯定还是最稳的,Day0 支持毫无悬念,而且还有最新的硬件加持,GB300 的 Token 成本算下来还是很低的。

华为的昇腾 +CANN 生态也能做到 NVIDIA 那样的 Day0 支持,这方面也让人刮目相看,也是国产 AI 平台的一次重大进步,只不过跟 NVIDIA 相比,国产 AI 的算力被限制住了,硬件性能目前差距比较大。

AMD 这边硬件及软件纸面上都很强,但生态还不够完善也是真的,只不过起点低的好处就是进步空间大,100x 性能提升听上去也很带感,就是要看客户喜不喜欢这种风格了。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

amd 华为 ai nvidia 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论