快科技 6 月 10 日消息,作为开源 AI 大模型的中坚力量,DeepSeek V4 的问世不只是多了一个大模型,而是各大 AI 生态圈的一次考验,谁能率先支持 DeepSeek V4 谁家的生态就有更大优势。
SemiAnalysis 日前发了一篇长文分析了 V4 的推理性能,对比了目前常见的 AI 生态圈,包括 NVIDIA、华为、AMD 及各自的 CUDA、ROCm、CANN,以及第三方社区开源的各种方案。

综合下来,目前最强、最优的还是 NVIDIA 的 CUDA 平台 vLLM 及 SGLang 框架,V4 发布当天就能 Day0 支持,哪怕是最新的硬件 GB200/300 也是开箱可用的水平。
华为的昇腾生态在这个问题上也不弱于 CUDA,昇腾 950DT+CANN 框架也是发布当天 Day0 支持,硬件及软件上都可以做到全栈支持。
这两个生态是最优的,要知道以往不论国内外大模型,基本上只有 NVIDIA 的 CUDA 生态可以做到 Day0 全栈支持,显然 V4 在开发阶段就针对国产 AI 平台做了适配及优化,这一点也确实做到了。
AMD 的硬件及 ROCm 生态指标都不错,但在 V4 的 Day0 支持上拉跨了,MI355X 显卡刚开始只能跑 FP8,性能很差,但 AMD 的 SGLang 团队追赶得极快,26 天时间里就把性能提升了 100x 倍。
综合 SemiAnalysis 的分析来看,NVIDIA 的 CUDA 生态圈肯定还是最稳的,Day0 支持毫无悬念,而且还有最新的硬件加持,GB300 的 Token 成本算下来还是很低的。
华为的昇腾 +CANN 生态也能做到 NVIDIA 那样的 Day0 支持,这方面也让人刮目相看,也是国产 AI 平台的一次重大进步,只不过跟 NVIDIA 相比,国产 AI 的算力被限制住了,硬件性能目前差距比较大。
AMD 这边硬件及软件纸面上都很强,但生态还不够完善也是真的,只不过起点低的好处就是进步空间大,100x 性能提升听上去也很带感,就是要看客户喜不喜欢这种风格了。



登录后才可以发布评论哦
打开小程序可以发布评论哦