DeepSeek V4推理性能分析：NV华为最优 AMD实现100x提升

快科技 6 月 10 日消息，作为开源 AI 大模型的中坚力量，DeepSeek V4 的问世不只是多了一个大模型，而是各大 AI 生态圈的一次考验，谁能率先支持 DeepSeek V4 谁家的生态就有更大优势。

SemiAnalysis 日前发了一篇长文分析了 V4 的推理性能，对比了目前常见的 AI 生态圈，包括 NVIDIA、华为、AMD 及各自的 CUDA、ROCm、CANN，以及第三方社区开源的各种方案。

综合下来，目前最强、最优的还是 NVIDIA 的 CUDA 平台 vLLM 及 SGLang 框架，V4 发布当天就能 Day0 支持，哪怕是最新的硬件 GB200/300 也是开箱可用的水平。

华为的昇腾生态在这个问题上也不弱于 CUDA，昇腾 950DT+CANN 框架也是发布当天 Day0 支持，硬件及软件上都可以做到全栈支持。

这两个生态是最优的，要知道以往不论国内外大模型，基本上只有 NVIDIA 的 CUDA 生态可以做到 Day0 全栈支持，显然 V4 在开发阶段就针对国产 AI 平台做了适配及优化，这一点也确实做到了。

AMD 的硬件及 ROCm 生态指标都不错，但在 V4 的 Day0 支持上拉跨了，MI355X 显卡刚开始只能跑 FP8，性能很差，但 AMD 的 SGLang 团队追赶得极快，26 天时间里就把性能提升了 100x 倍。

综合 SemiAnalysis 的分析来看，NVIDIA 的 CUDA 生态圈肯定还是最稳的，Day0 支持毫无悬念，而且还有最新的硬件加持，GB300 的 Token 成本算下来还是很低的。

华为的昇腾 +CANN 生态也能做到 NVIDIA 那样的 Day0 支持，这方面也让人刮目相看，也是国产 AI 平台的一次重大进步，只不过跟 NVIDIA 相比，国产 AI 的算力被限制住了，硬件性能目前差距比较大。

AMD 这边硬件及软件纸面上都很强，但生态还不够完善也是真的，只不过起点低的好处就是进步空间大，100x 性能提升听上去也很带感，就是要看客户喜不喜欢这种风格了。

宙世代