AI 推理游戏规则,正悄然改变。一份最新报告揭示了关键转折:如今决定胜负的,不再是单纯的芯片性能或 GPU 数量,而是 「每一美元能输出多少智能」。
AI 推理,现已不只看算力硬指标了!
Signal65 一份最新报告中,英伟达 GB200 NVL72 是 AMD MI350X 吞吐量 28 倍。
而且,在高交互场景在,DeepSeek R1 每 Token 成本还能低到 15 倍。

GB200 每小时单价大概是贵一倍左右,但这根本不重要。因为机柜级 NVLink 互联 + 软件调度能力,彻底改变了成本结构。
顶级投资人 Ben Pouladian 称,「目前的关键不再是算力或 GPU 数量,而是每一美元能买到多少智能输出」。

如今,英伟达仍是王者。其他竞争对手根本做不到这种交互水平,这就是护城河。

最关键的是,这还没有集成 200 亿刀买入 Groq 的推理能力。
这里,再 mark 下老黄至理名言—— The more you buy, the more you save!

AI 推理重心:一美元输出多少智能?
这篇万字报告,探索了从稠密模型(Dense)到混合专家模型(MoE)推理背后的一些本质现象。

传统的「稠密模型」架构要求:在生成每个 Token 时都激活模型里的全部参数。
这就意味着:模型越大,运行越慢、成本越高,同时还会带来相应的内存需求增长等问题。

MoE 架构,正是为了释放更高水平的智能而生——在每个 Token 上只激活最相关的「专家」。
搂一眼 Artificial Analysis 排行榜即可发现,全球 TOP 10 开源 LLM,全部都是 MoE 推理模型。
它们会在推理阶段额外「加算力」来提高准确性:
LLM 不会立刻吐出答案,而是先生成中间的推理 Token,再输出,相当于先把请求和解法「想一遍」。

前 16 名里有 12 个是 MoE 模型
这些推理 Token 往往远多于最终回复,而且可能完全不会展示出来。能否既快又便宜地生成 Token,对推理部署来说就变得至关重要。
那么,MoE 方法的主要约束在哪里?
一个核心限制在于「通信瓶颈」。
当不同专家分布在多块 GPU 上时,任何 GPU 之间通信的延迟,都会让 GPU 空闲等待数据。

OpenRouter 一份近期报告,超 50% 的 Token 会被路由到推理模型上
这些「空转时间」(idle time)代表着被浪费的、低效的算力,并且会直接体现在服务提供商的成本底线上。
当评估 AI 基础设施的「经济性」时,一般会聚焦在三个方面:
性能(吞吐量与交互性)
能效(在既定功耗预算下,可生成的 Token 数)
总体拥有成本(通常以 Token/ 每百万的成本衡量)
基于公开可用的基准测试数据,Signal65 对不同 LLM 架构下 AI 基础设施方案进行了对比分析。
分析中,团队采用第三方基准测试所提供的性能数据,来估算相对的 Token 经济性。
具体来说,他们选取了 B200、GB200 NVL72,以及 AMD MI355X 部分结果,用以对比它们在不同模型场景下的真实性能表现及相应的 TCO 估算。

结果显示,在稠密架构以及较小规模的 MoE 中,B200 性能优于 AMD MI355X。
当模型扩展到像 DeepSeek-R1 这样需跨越单节点的前沿级规模时,GB200 NVL72 性能最高可达到 MI355X 的 28 倍。

在高交互性的推理工作负载中,NVL72 的单位 Token 成本最低,可降至其他方案的约 1/15。
尽管 GB200 NVL72 的单 GPU 小时价格几乎是这些竞争平台的 2 倍,但其机架级能力——从 NVLink 高速互连,到覆盖 72 块 GPU 的软件编排——共同推动了这种显著更优的单位经济性。
价值评估的重心,正在从单纯的原始 FLOPs,转向「每一美元所获得的总体智能」。
这一结论非常明确:
随着 MoE 模型和推理工作负载带来的复杂性与规模持续上升,行业已无法仅依赖芯片层面的性能提升。
能够在系统层面实现峰值性能的端到端平台设计,已经成为实现低成本、高响应 AI 服务的关键杠杆。
「稠密模型」推理,英伟达领先
Signal65 选择了 Llama 3.3 70B 作为稠密模型的性能基准,结果如下所示:
帕累托曲线清晰显示出,HGX B200-TRT 方案在整个吞吐量与交互性区间内,都具备持续的性能优势。
具体到基线交互性水平,B200 的性能大约是 MI355X 的 1.8 倍,这为交互式应用部署,以及更高的单 GPU 并发密度提供了显著余量。

再来看,当交互性提升至 110 tokens/sec/user 时,这一优势进一步被放大:B200 吞吐量超过 MI355X 的 6 倍。
整体上,在 Llama 3.3 70B 测试中,AMD MI355X 在单位成本性能方面确实具备一定吸引力。
但这种优势并不能代表更现代的推理技术栈,尤其是以 MoE 架构和高强度推理工作负载构建的系统。


MoE 推理,英伟达领先
那么,在 MoE 架构上,英伟达和 AMD 表现又如何?
中等规模推理:gpt-oss-120B
Signal65 认为,OpenAI gpt-oss-120B 是理解 MoE 部署特性的一个理想「桥梁案例」。
它足够大,可以把 MoE 的复杂性暴露出来;
但规模又没有大到离谱,仍然是很多团队能现实部署并调优的范围。
它处在一个很有用的中间地带:介于稠密的 70B 级模型,与市场正在快速转向的、更前沿的推理型 MoE 架构之间。

在 10 月下旬数据里,当目标是 100 tokens/sec/user 时,B200 大约比 MI355X 快 1.4 倍;
但当目标提高到 250 tokens/sec/user 时,差距会扩大到约 3.5 倍,说明越追求「更快的交互」,平台差异越容易被放大。
不过,12 月上旬的数据则呈现出不同局面。
得益于软件优化,两边平台的绝对性能都明显提升:英伟达单 GPU 峰值吞吐从大约 7,000 tokens/sec 提升到超过 14,000;AMD 也从约 6,000 提升到大约 8,500。


前沿推理:DeepSeek-R1
在 DeepSeek-R1 推理上,测试结果正如开篇所介绍那样,英伟达 GB200 NVL72 大幅领先。
更多数据如下图所示:

基准测试数据展示了一个被重塑的格局:
GB200 NVL72 让「超过 8 块 GPU 的张量并行配置」也能进入帕累托前沿,达到单节点平台根本无法匹敌的性能。
在 25 tokens/sec/user 交互性目标下,GB200 NVL72 单 GPU 性能大约是 H200 的 10 倍,并且超过 MI325X 单 GPU 性能的 16 倍。
这类性能差距,正是能为 AI 服务提供商带来「断崖式」TCO 改善的那种差距。
当交互性目标提高到 60 tokens/sec/user 时,GB200 NVL72 相比 H200 带来了超 24 倍的代际提升,同时也接近 MI355X 的 11.5 倍性能。
在同样 25 tokens/sec/user 下,GB200 NVL72 单 GPU 性能大约是 B200 的 2 倍、是 MI355X 的 5.9 倍;
而到 60 tokens/sec/user 时,这些优势进一步扩大:相对单节点 B200 达到 5.3 倍、相对 MI355X 达到 11.5 倍。


GPU 越贵,token 成本越低
英伟达从 Hopper 过渡到 Blackwell,并推出 GB200 NVL72 时,不仅提升了每 GPU 算力、内存带宽以及 NVLink 互连带宽,还对底层系统架构做了重新设计。
从 8-GPU 风冷 HGX 服务器转向全液冷的机架级系统,并把 72 块 GPU 连接在同一个域内,系统成本和复杂度显然都上升了。

据 CoreWeave 公布的目录价,按单 GPU 口径,GB200 NVL72 价格大约比 H200 贵 1.7 倍。
不过,每一代新技术的目标之一,就是压低「每 Token 成本」。
对推理而言,具体就是:实际交付的 Token 吞吐提升幅度,要超过底层基础设施成本的提升幅度。
而从公开的性能数据来看,这正是 GB200 NVL72 相比 Hopper 所呈现出的结果。
Signal65 把本次的 tokenomics(Token 经济学)分析,锚定在前文建立的 DeepSeek-R1 性能差距上:
在 25 tokens/sec/user 时,GB200 NVL72 单 GPU 性能大约是 H200 的 10 倍;
在更高的交互点位上,这个差距会更大(24 倍)。
下表总结了成本归一化,以及由此得到的「每美元性能」计算:
这些结果一开始可能有点反直觉:更「贵」的 GPU 反而更省钱——因为它带来的性能提升远大于价格差异,使得它能以更低成本生成 Token。


与 AMD 相比,英伟达系统在推理 token 成本上的一些数据对比:

按单 GPU 口径,MI355X 价格大约只有 GB200 NVL72 配置的一半;
但由于 GB200 NVL72 单 GPU 性能优势从低端接近 6 倍,到高交互性时高达 28 倍不等,英伟达仍然能提供最高 15 倍的每美元性能优势。
换句话说,英伟达能实现相对每 Token 成本仅为竞争对手的 1/15。
结论
前沿 AI 模型的未来,会是更大、更复杂的 MoE。
随着模型更深地走向 MoE 与推理架构,最终效果将不再只取决于原始 GPU 性能或内存容量。
平台级设计会成为决定性因素——包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力,以及在并发与混合负载下维持高利用率的能力。
从当前趋势看,来自 OpenAI、Meta、Anthropic 等前沿公司的旗舰模型,很可能会继续沿着 MoE 与推理方向演进。
如果这一轨迹成立,英伟达将维持关键的性能与经济性优势。
谷歌 TPU 这类架构也提供机架级方案,但它们对非自家模型的适用性与性能表现仍不明确。
本文记录的性能差异,能够直接转化为可量化的商业结果:
在既定交互性阈值下,每部署一块 GPU 能服务更多用户,就能降低每个「有用 Token」的生成成本,提高每机架的收入潜力(通过规模化交付更高价值的体验),最终 AI 企业和部署 AI 的企业获得更好的 TCO。
一个具体例子足以说明量级:当一个平台在某个交互性目标下,能提供 28 倍的单 GPU 吞吐提升时,它可以在不需要线性扩大硬件规模的情况下,解锁新的产品档位以及更复杂的功能。
这就是 AI 推理「经济学」,而它会更偏向那些从底层就为 MoE 与推理时代而设计的平台。


登录后才可以发布评论哦
打开小程序可以发布评论哦