驱动之家 05-11
DeepSeek V4引爆软件栈大战!AMD ROCm 14天性能暴涨75倍:硬刚NVIDIA CUDA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 5 月 11 日消息,SemiAnalysis 旗下 InferenceX 性能测试平台发布的最新测试数据显示,自 DeepSeek V4 大模型发布以来,AMD ROCm 软件栈在约 14 天内实现了 75 倍的推理吞吐提升。

该测试覆盖了 FP4 和 FP8 精度下的 8K/1K 上下文典型应用场景,测试周期截至 5 月 8 日。

在相同交互性水平下,token 处理能力同步增长,有效降低了大模型推理延迟,显著改善了终端用户的使用体验。

此次性能飞跃完全来自 ROCm 软件栈的深度优化,未涉及硬件层面的改动,展现出 AMD 在 AI 软件领域的快速迭代能力。

性能提升主要源于两大核心优化:融合 mHC 操作与 RoPE 哈达玛变换,降低 CPU 开销并提高 HBM 内存利用率。

此外,索引器、键值缓存压缩器等核心计算内核均采用 TileLang 和 Triton 语言编写,大幅加快了开发迭代速度。

目前 ROCm 距离单节点聚合英伟达 B200 的性能水平仍有 5 倍差距,距离 PD 解耦版本 B200 则还有 1.5 倍提升空间。

相关信息显示,AMD 有望在未来几周内完成剩余的性能优化目标,进一步缩小与 NVIDIA CUDA 的技术差距。

这是 DeepSeek V4 发布后,AMD ROCm 团队在未提前获得模型权重的情况下启动适配,仅用约两周便交出上述成绩单。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

amd 成绩单 英伟达 ai
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论