DeepSeek V4引爆软件栈大战！AMD ROCm 14天性能暴涨75倍：硬刚NVIDIA CUDA

快科技 5 月 11 日消息，SemiAnalysis 旗下 InferenceX 性能测试平台发布的最新测试数据显示，自 DeepSeek V4 大模型发布以来，AMD ROCm 软件栈在约 14 天内实现了 75 倍的推理吞吐提升。

该测试覆盖了 FP4 和 FP8 精度下的 8K/1K 上下文典型应用场景，测试周期截至 5 月 8 日。

在相同交互性水平下，token 处理能力同步增长，有效降低了大模型推理延迟，显著改善了终端用户的使用体验。

此次性能飞跃完全来自 ROCm 软件栈的深度优化，未涉及硬件层面的改动，展现出 AMD 在 AI 软件领域的快速迭代能力。

性能提升主要源于两大核心优化：融合 mHC 操作与 RoPE 哈达玛变换，降低 CPU 开销并提高 HBM 内存利用率。

此外，索引器、键值缓存压缩器等核心计算内核均采用 TileLang 和 Triton 语言编写，大幅加快了开发迭代速度。

目前 ROCm 距离单节点聚合英伟达 B200 的性能水平仍有 5 倍差距，距离 PD 解耦版本 B200 则还有 1.5 倍提升空间。

相关信息显示，AMD 有望在未来几周内完成剩余的性能优化目标，进一步缩小与 NVIDIA CUDA 的技术差距。

这是 DeepSeek V4 发布后，AMD ROCm 团队在未提前获得模型权重的情况下启动适配，仅用约两周便交出上述成绩单。

宙世代