随着 AI 大模型 " 推理时代 " 的全面到来,英伟达最新推出 Rubin CPX GPU,智库 SemiAnalysis 认为该 GPU 或将彻底改变推理领域,发布意义仅次于 2024 年 3 月 GB200 NVL72 机架。
近期花旗发布了一份引人注目研报,其在报告中表示英伟达在 AI 基础设施峰会上重磅推出的 Rubin CPX GPU,专为长语境推理设计,有望实现约 50 倍的惊人投资回报率,远超此前 GB200 NVL72 约 10 倍的回报率。
这一发布不仅仅是英伟达自身的进步,更是对整个行业路线图的重塑。正如 SemiAnalysis 报告所强调的,Rubin CPX 的推出,其重要性仅次于 2024 年 3 月 GB200 NVL72 Oberon 机架级形态的。该芯片通过专门优化预填充阶段,强调计算 FLOPS 而非内存带宽,为分离式推理服务带来革命性变化。
这一发布还将迫使英伟达所有竞争对手重新制定路线图。AMD 和 ASIC 供应商此前投入大量资源追赶英伟达的机架级解决方案,但现在必须再次加倍投资开发自己的预填充芯片,进一步延迟缩小与英伟达差距的时间。
SemiAnalysis 的报告提供了对 Rubin CPX 的详尽洞察,揭示了这款芯片如何通过优化推理的不同阶段,重塑行业路线图。以下是报告要点:
突破内存墙限制:专用芯片架构设计
根据 SemiAnalysis 介绍,英伟达推出 Rubin CPX 的核心理念在于将推理过程解耦为 " 预填充(Prefill)" 和 " 解码(Decode)" 两个阶段,并为每个阶段设计了专业化的硬件。
报告指出,LLM 请求的预填充阶段(生成第一个 Token)通常是计算密集型(FLOPS)的,但对内存带宽的利用率较低。
尽管 HBM 对训练和推理都极具价值,但在推理的具体执行过程中,其利用效率存在显著差异,HBM 仅在解码步骤中发挥高价值作用。在这种情况下,使用配备昂贵 HBM 的芯片进行预填充是一种资源浪费。
而 Rubin CPX 正是为解决这一痛点而生,它 " 瘦身 " 了内存带宽,转而强调计算 FLOPS。Rubin CPX 拥有 20 PFLOPS 的 FP4 密集计算能力,但仅配备了 2TB/s 的内存带宽和 128GB 的 GDDR7 内存。相比之下,双芯片 R200 提供 33.3 PFLOPS 的 FP4 密集计算能力和 20.5TB/s 的内存带宽以及 288GB 的 HBM。
这将带来成本效益的显著提升,SemiAnalysis 报告指出,将 HBM 切换为更便宜的 GDDR7 内存,每 GB 成本可降低 50% 以上。这意味着,在预填充阶段,Rubin CPX 能够以远低于 R200 的成本,提供高效的计算能力,从而大幅降低总体拥有成本(TCO)。
SemiAnalysis 指出,该芯片设计类似于下一代 RTX 5090 或 RTX PRO 6000 Blackwell,使用大型单片式芯片和 512 位宽 GDDR7 内存接口。但与基于消费者 Blackwell GPU 芯片仅有其 HBM 版本 20% FLOPS 不同,Rubin CPX 的比例跃升至 60%,因为它将是更接近 R200 计算芯片的独立流片设计。
全新机架级架构:三种部署方案
英伟达推出三种 Vera Rubin 机架配置:VR200 NVL144(仅 Rubin)、VR200 NVL144 CPX(Rubin+Rubin CPX 混合)、以及 Vera Rubin CPX 双机架方案,具体来看:
NVL144 CPX 机架: 英伟达推出了 VR NVL144 CPX(Vera Rubin NVL144 CPX)机架,将 Rubin GPU 与 Rubin CPX GPU 整合。每个计算托盘(Compute Tray)将包含 4 个 R200 GPU(用于解码)和 8 个 Rubin CPX GPU(用于预填充)。这种异构配置使得系统能同时高效处理推理的两个阶段。
双机架解决方案: Vera Rubin CPX 双机架方案提供了更大的灵活性,允许客户根据自身工作负载需求,单独部署 VR NVL144(纯 Rubin GPU)机架和 VR CPX(纯 Rubin CPX GPU)机架,以精确调整预填充与解码的比例(PD ratio)。
SemiAnalysis 详细分析了无线缆设计的技术革新。由于高密度设计无法为线缆布线留出空间,英伟达采用 PCB 中板和 Amphenol Paladin 板对板连接器实现信号传输。CX-9 网卡从机箱后半部分移至前半部分,使 200G 以太网 /InfiniBand 信号传输距离缩短,而较低速度的 PCIe Gen6 信号承担更长距离传输,提高了可靠性和可维护性。
液冷采用夹层式液冷设计,Rubin CPX 和 CX-9 网卡采用夹层式设计,共享液冷冷板,最大化了 1U 托盘空间内的 GPU 密度和散热效率,这种设计在英伟达 2009 年的 GTX 295 上曾有类似实践。
预填充流水线并行:高效利用资源的关键
Rubin CPX 的另一个重要优势在于其对预填充流水线并行(Pipeline Parallelism)的优化。
降低网络成本: 预填充阶段的通信需求较低,因此 Rubin CPX 放弃了昂贵的快速横向扩展网络(如 NVLink)。PCIe Gen6 x16 的带宽(约 1Tbit/s)足以满足现代 MoE LLM 的预填充需求。
更高的吞吐量: 流水线并行在每个 GPU 上提供更高的 Token 吞吐量,因为它涉及简单的发送和接收操作,而不是专家并行(EP)中的所有到所有集体操作。
显著的 TCO 节省: NVLink 横向扩展的成本约为每 GPU 8000 美元,占集群总成本的 10% 以上。Rubin CPX 通过避免使用这些昂贵的网络设备,为最终用户带来了巨大的成本节省。
分离式推理服务的技术突破
SemiAnalysis 介绍,业界首先尝试将预填充和解码请求路由到不同计算单元,以解决两种工作负载间的相互干扰问题。这种方法能更好地管理服务级别协议 ( SLA ) ,但仍存在 " 错误配置 " 问题——纯预填充操作几乎总是严重浪费内存带宽资源。
SemiAnalysis 强调,LLM 请求处理包含两个阶段:预填充阶段影响首令牌时间(TTFT),通常受计算限制;解码阶段影响每输出令牌时间(TPOT),总是受内存限制。
分析显示,当序列长度超过 32k 时,FLOPS 利用率达到 100%,而内存带宽利用率下降。使用 R200 进行纯预填充操作时,每小时总拥有成本浪费达 0.90 美元,而 Rubin CPX 通过使用成本更低的内存显著降低了这种浪费。
在管道并行推理中,Rubin CPX 的 PCIe Gen6 x16 接口提供约 1Tbit/s 单向带宽,足以处理现代 MoE 前沿 LLM 的预填充任务。Rubin CPX 提供更大内存容量,但使用的是 " 较低质量 " 的 GDDR7 内存,每 GB 成本不到 HBM 的一半。从内存供应商角度看,GDDR7 利润率较低,因为技术要求不高且竞争更激烈 ( 如 Samsung 可以供应 ) 。
HBM 需求可能下降?整体内存市场需求将增长?
CPX 系统的使用降低了 HBM 在总系统成本中的占比。对于 VR200 NVL144 CPX 或 VR CPX 机架的每一美元支出,相比独立 VR200 NVL144 机架,分配给 HBM 的比例更低。在 AI 系统支出固定的假设下,每美元支出的 HBM 需求将下降。
进一步来看,SemiAnalysis 报告表示,英伟达 Rubin CPX 架构虽然降低了内存使用率,但反而可能推动整体内存市场规模扩大,GDDR7 供应链格局面临重塑。
技术现实更为复杂。 Rubin CPX 的作用机制是降低预填充和令牌的成本。当令牌成本降低时,需求随之增加,这意味着解码需求也会相应上升。与许多其他降低成本的技术创新类似,需求的增长通常会超过成本的下降,最终推动整体市场规模扩大。
Rubin CPX 对 GDDR7 的需求激增,正在重塑内存供应链格局,其影响已经开始显现。值得关注的是,RTX Pro 6000 同样使用 GDDR7 内存,但速度较低,为 28Gbps。英伟达已经为 RTX Pro SKU 下达了大规模供应链订单。
在这轮 GDDR7 需求激增中,三星成为最大受益者。由于能够满足英伟达突然涌现的大批量订单需求,这些订单主要流向了三星。相比之下,SK 海力士和美光科技未能满足这一需求,主要原因是它们的晶圆产能被 HBM 订单等其他业务占用。
竞争对手被远远甩在身后
SemiAnalysis 报告表示,Rubin CPX 的引入,令英伟达的机架系统设计能力与竞争对手之间的差距达到了 " 峡谷 " 级别。
英伟达所有竞争对手或将不得不再次重新配置他们的整个路线图,就像 Oberon 架构改变了整个行业的路线图一样。他们需要再次加大投资,开发自己的预填充芯片,这将进一步延迟他们缩小与英伟达差距的时间。
SemiAnalysis 认为,Google TPU 凭借 3D 环形扩展网络优势,支持最大 9216 个 TPU 的集群规模,应开发预填充专用芯片维持性价比优势。
AMD 的追赶策略面临重大挑战,MI400 72 GPU 机架级系统原本有望在 TCO 方面与 VR200 NVL144 竞争,但英伟达将 VR200 内存带宽提升至 20.5TB/s,与 MI400 持平。如果 MI400 的实际 FP4 性能与 VR200 NVL144 相当或更低,AMD 将再次落后于英伟达。
据 SemiAnalysis 评估,AMD 缺乏强大的内部工作负载支撑,需要在开发机架级系统和改进软件的同时,再开辟预填充专用芯片战线,才有望在 2027 年追上英伟达。
AWS Trainium3 和 Meta MTIAv4 等拥有内部工作负载的供应商具备开发预填充专用芯片的优势。但 AWS 面临技术挑战,因为 1U 计算托盘空间有限,可能需要采用 EFA 网卡侧车机架和外部 PCIe AEC 线缆的解决方案。
登录后才可以发布评论哦
打开小程序可以发布评论哦