新智元 昨天
英伟达仍是王者,GB200贵一倍却暴省15倍,AMD输得彻底
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

AI 推理游戏规则,正悄然改变。一份最新报告揭示了关键转折:如今决定胜负的,不再是单纯的芯片性能或 GPU 数量,而是 「每一美元能输出多少智能」。

AI 推理,现已不只看算力硬指标了!

Signal65 一份最新报告中,英伟达 GB200 NVL72 是 AMD MI350X 吞吐量 28 倍。

而且,在高交互场景在,DeepSeek R1 每 Token 成本还能低到 15 倍。

GB200 每小时单价大概是贵一倍左右,但这根本不重要。因为机柜级 NVLink 互联 + 软件调度能力,彻底改变了成本结构。

顶级投资人 Ben Pouladian 称,「目前的关键不再是算力或 GPU 数量,而是每一美元能买到多少智能输出」。

如今,英伟达仍是王者。其他竞争对手根本做不到这种交互水平,这就是护城河。

最关键的是,这还没有集成 200 亿刀买入 Groq 的推理能力。

这里,再 mark 下老黄至理名言—— The more you buy, the more you save!

AI 推理重心:一美元输出多少智能?

这篇万字报告,探索了从稠密模型(Dense)到混合专家模型(MoE)推理背后的一些本质现象。

传统的「稠密模型」架构要求:在生成每个 Token 时都激活模型里的全部参数。

这就意味着:模型越大,运行越慢、成本越高,同时还会带来相应的内存需求增长等问题。

MoE 架构,正是为了释放更高水平的智能而生——在每个 Token 上只激活最相关的「专家」。

搂一眼 Artificial Analysis 排行榜即可发现,全球 TOP 10 开源 LLM,全部都是 MoE 推理模型。

它们会在推理阶段额外「加算力」来提高准确性:

LLM 不会立刻吐出答案,而是先生成中间的推理 Token,再输出,相当于先把请求和解法「想一遍」。

前 16 名里有 12 个是 MoE 模型

这些推理 Token 往往远多于最终回复,而且可能完全不会展示出来。能否既快又便宜地生成 Token,对推理部署来说就变得至关重要。

那么,MoE 方法的主要约束在哪里?

一个核心限制在于「通信瓶颈」。

当不同专家分布在多块 GPU 上时,任何 GPU 之间通信的延迟,都会让 GPU 空闲等待数据。

OpenRouter 一份近期报告,超 50% 的 Token 会被路由到推理模型上

这些「空转时间」(idle time)代表着被浪费的、低效的算力,并且会直接体现在服务提供商的成本底线上。

当评估 AI 基础设施的「经济性」时,一般会聚焦在三个方面:

性能(吞吐量与交互性)

能效(在既定功耗预算下,可生成的 Token 数)

总体拥有成本(通常以 Token/ 每百万的成本衡量)

基于公开可用的基准测试数据,Signal65 对不同 LLM 架构下 AI 基础设施方案进行了对比分析。

分析中,团队采用第三方基准测试所提供的性能数据,来估算相对的 Token 经济性。

具体来说,他们选取了 B200、GB200 NVL72,以及 AMD MI355X 部分结果,用以对比它们在不同模型场景下的真实性能表现及相应的 TCO 估算。

结果显示,在稠密架构以及较小规模的 MoE 中,B200 性能优于 AMD MI355X。

当模型扩展到像 DeepSeek-R1 这样需跨越单节点的前沿级规模时,GB200 NVL72 性能最高可达到 MI355X 的 28 倍。

在高交互性的推理工作负载中,NVL72 的单位 Token 成本最低,可降至其他方案的约 1/15。

尽管 GB200 NVL72 的单 GPU 小时价格几乎是这些竞争平台的 2 倍,但其机架级能力——从 NVLink 高速互连,到覆盖 72 块 GPU 的软件编排——共同推动了这种显著更优的单位经济性。

价值评估的重心,正在从单纯的原始 FLOPs,转向「每一美元所获得的总体智能」。

这一结论非常明确:

随着 MoE 模型和推理工作负载带来的复杂性与规模持续上升,行业已无法仅依赖芯片层面的性能提升。

能够在系统层面实现峰值性能的端到端平台设计,已经成为实现低成本、高响应 AI 服务的关键杠杆。

「稠密模型」推理,英伟达领先

Signal65 选择了 Llama 3.3 70B 作为稠密模型的性能基准,结果如下所示:

帕累托曲线清晰显示出,HGX B200-TRT 方案在整个吞吐量与交互性区间内,都具备持续的性能优势。

具体到基线交互性水平,B200 的性能大约是 MI355X 的 1.8 倍,这为交互式应用部署,以及更高的单 GPU 并发密度提供了显著余量。

再来看,当交互性提升至 110 tokens/sec/user 时,这一优势进一步被放大:B200 吞吐量超过 MI355X 的 6 倍。

整体上,在 Llama 3.3 70B 测试中,AMD MI355X 在单位成本性能方面确实具备一定吸引力。

但这种优势并不能代表更现代的推理技术栈,尤其是以 MoE 架构和高强度推理工作负载构建的系统。

MoE 推理,英伟达领先

那么,在 MoE 架构上,英伟达和 AMD 表现又如何?

中等规模推理:gpt-oss-120B

Signal65 认为,OpenAI gpt-oss-120B 是理解 MoE 部署特性的一个理想「桥梁案例」。

它足够大,可以把 MoE 的复杂性暴露出来;

但规模又没有大到离谱,仍然是很多团队能现实部署并调优的范围。

它处在一个很有用的中间地带:介于稠密的 70B 级模型,与市场正在快速转向的、更前沿的推理型 MoE 架构之间。

在 10 月下旬数据里,当目标是 100 tokens/sec/user 时,B200 大约比 MI355X 快 1.4 倍;

但当目标提高到 250 tokens/sec/user 时,差距会扩大到约 3.5 倍,说明越追求「更快的交互」,平台差异越容易被放大。

不过,12 月上旬的数据则呈现出不同局面。

得益于软件优化,两边平台的绝对性能都明显提升:英伟达单 GPU 峰值吞吐从大约 7,000 tokens/sec 提升到超过 14,000;AMD 也从约 6,000 提升到大约 8,500。

前沿推理:DeepSeek-R1

在 DeepSeek-R1 推理上,测试结果正如开篇所介绍那样,英伟达 GB200 NVL72 大幅领先。

更多数据如下图所示:

基准测试数据展示了一个被重塑的格局:

GB200 NVL72 让「超过 8 块 GPU 的张量并行配置」也能进入帕累托前沿,达到单节点平台根本无法匹敌的性能。

在 25 tokens/sec/user 交互性目标下,GB200 NVL72 单 GPU 性能大约是 H200 的 10 倍,并且超过 MI325X 单 GPU 性能的 16 倍。

这类性能差距,正是能为 AI 服务提供商带来「断崖式」TCO 改善的那种差距。

当交互性目标提高到 60 tokens/sec/user 时,GB200 NVL72 相比 H200 带来了超 24 倍的代际提升,同时也接近 MI355X 的 11.5 倍性能。

在同样 25 tokens/sec/user 下,GB200 NVL72 单 GPU 性能大约是 B200 的 2 倍、是 MI355X 的 5.9 倍;

而到 60 tokens/sec/user 时,这些优势进一步扩大:相对单节点 B200 达到 5.3 倍、相对 MI355X 达到 11.5 倍。

GPU 越贵,token 成本越低

英伟达从 Hopper 过渡到 Blackwell,并推出 GB200 NVL72 时,不仅提升了每 GPU 算力、内存带宽以及 NVLink 互连带宽,还对底层系统架构做了重新设计。

从 8-GPU 风冷 HGX 服务器转向全液冷的机架级系统,并把 72 块 GPU 连接在同一个域内,系统成本和复杂度显然都上升了。

据 CoreWeave 公布的目录价,按单 GPU 口径,GB200 NVL72 价格大约比 H200 贵 1.7 倍。

不过,每一代新技术的目标之一,就是压低「每 Token 成本」。

对推理而言,具体就是:实际交付的 Token 吞吐提升幅度,要超过底层基础设施成本的提升幅度。

而从公开的性能数据来看,这正是 GB200 NVL72 相比 Hopper 所呈现出的结果。

Signal65 把本次的 tokenomics(Token 经济学)分析,锚定在前文建立的 DeepSeek-R1 性能差距上:

在 25 tokens/sec/user 时,GB200 NVL72 单 GPU 性能大约是 H200 的 10 倍;

在更高的交互点位上,这个差距会更大(24 倍)。

下表总结了成本归一化,以及由此得到的「每美元性能」计算:

这些结果一开始可能有点反直觉:更「贵」的 GPU 反而更省钱——因为它带来的性能提升远大于价格差异,使得它能以更低成本生成 Token。

与 AMD 相比,英伟达系统在推理 token 成本上的一些数据对比:

按单 GPU 口径,MI355X 价格大约只有 GB200 NVL72 配置的一半;

但由于 GB200 NVL72 单 GPU 性能优势从低端接近 6 倍,到高交互性时高达 28 倍不等,英伟达仍然能提供最高 15 倍的每美元性能优势。

换句话说,英伟达能实现相对每 Token 成本仅为竞争对手的 1/15。

结论

前沿 AI 模型的未来,会是更大、更复杂的 MoE。

随着模型更深地走向 MoE 与推理架构,最终效果将不再只取决于原始 GPU 性能或内存容量。

平台级设计会成为决定性因素——包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力,以及在并发与混合负载下维持高利用率的能力。

从当前趋势看,来自 OpenAI、Meta、Anthropic 等前沿公司的旗舰模型,很可能会继续沿着 MoE 与推理方向演进。

如果这一轨迹成立,英伟达将维持关键的性能与经济性优势。

谷歌 TPU 这类架构也提供机架级方案,但它们对非自家模型的适用性与性能表现仍不明确。

本文记录的性能差异,能够直接转化为可量化的商业结果:

在既定交互性阈值下,每部署一块 GPU 能服务更多用户,就能降低每个「有用 Token」的生成成本,提高每机架的收入潜力(通过规模化交付更高价值的体验),最终 AI 企业和部署 AI 的企业获得更好的 TCO。

一个具体例子足以说明量级:当一个平台在某个交互性目标下,能提供 28 倍的单 GPU 吞吐提升时,它可以在不需要线性扩大硬件规模的情况下,解锁新的产品档位以及更复杂的功能。

这就是 AI 推理「经济学」,而它会更偏向那些从底层就为 MoE 与推理时代而设计的平台。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 ai amd gpu 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论