快科技 5 月 11 日消息,SemiAnalysis 旗下 InferenceX 性能测试平台发布的最新测试数据显示,自 DeepSeek V4 大模型发布以来,AMD ROCm 软件栈在约 14 天内实现了 75 倍的推理吞吐提升。
该测试覆盖了 FP4 和 FP8 精度下的 8K/1K 上下文典型应用场景,测试周期截至 5 月 8 日。

在相同交互性水平下,token 处理能力同步增长,有效降低了大模型推理延迟,显著改善了终端用户的使用体验。
此次性能飞跃完全来自 ROCm 软件栈的深度优化,未涉及硬件层面的改动,展现出 AMD 在 AI 软件领域的快速迭代能力。
性能提升主要源于两大核心优化:融合 mHC 操作与 RoPE 哈达玛变换,降低 CPU 开销并提高 HBM 内存利用率。
此外,索引器、键值缓存压缩器等核心计算内核均采用 TileLang 和 Triton 语言编写,大幅加快了开发迭代速度。
目前 ROCm 距离单节点聚合英伟达 B200 的性能水平仍有 5 倍差距,距离 PD 解耦版本 B200 则还有 1.5 倍提升空间。
相关信息显示,AMD 有望在未来几周内完成剩余的性能优化目标,进一步缩小与 NVIDIA CUDA 的技术差距。
这是 DeepSeek V4 发布后,AMD ROCm 团队在未提前获得模型权重的情况下启动适配,仅用约两周便交出上述成绩单。



登录后才可以发布评论哦
打开小程序可以发布评论哦