全天候科技 前天
SemiAnalysis详解英伟达新芯片“Rubin CPX”:彻底改变推理架构,重塑行业路线图
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

随着 AI 大模型 " 推理时代 " 的全面到来,英伟达最新推出 Rubin CPX GPU,智库 SemiAnalysis 认为该 GPU 或将彻底改变推理领域,发布意义仅次于 2024 年 3 月 GB200 NVL72 机架。

近期花旗发布了一份引人注目研报,其在报告中表示英伟达在 AI 基础设施峰会上重磅推出的 Rubin CPX GPU,专为长语境推理设计,有望实现约 50 倍的惊人投资回报率,远超此前 GB200 NVL72 约 10 倍的回报率。

这一发布不仅仅是英伟达自身的进步,更是对整个行业路线图的重塑。正如 SemiAnalysis 报告所强调的,Rubin CPX 的推出,其重要性仅次于 2024 年 3 月 GB200 NVL72 Oberon 机架级形态的。该芯片通过专门优化预填充阶段,强调计算 FLOPS 而非内存带宽,为分离式推理服务带来革命性变化。

这一发布还将迫使英伟达所有竞争对手重新制定路线图。AMD 和 ASIC 供应商此前投入大量资源追赶英伟达的机架级解决方案,但现在必须再次加倍投资开发自己的预填充芯片,进一步延迟缩小与英伟达差距的时间。

SemiAnalysis 的报告提供了对 Rubin CPX 的详尽洞察,揭示了这款芯片如何通过优化推理的不同阶段,重塑行业路线图。以下是报告要点:

突破内存墙限制:专用芯片架构设计

根据 SemiAnalysis 介绍,英伟达推出 Rubin CPX 的核心理念在于将推理过程解耦为 " 预填充(Prefill)" 和 " 解码(Decode)" 两个阶段,并为每个阶段设计了专业化的硬件。

报告指出,LLM 请求的预填充阶段(生成第一个 Token)通常是计算密集型(FLOPS)的,但对内存带宽的利用率较低。

尽管 HBM 对训练和推理都极具价值,但在推理的具体执行过程中,其利用效率存在显著差异,HBM 仅在解码步骤中发挥高价值作用。在这种情况下,使用配备昂贵 HBM 的芯片进行预填充是一种资源浪费。

而 Rubin CPX 正是为解决这一痛点而生,它 " 瘦身 " 了内存带宽,转而强调计算 FLOPS。Rubin CPX 拥有 20 PFLOPS 的 FP4 密集计算能力,但仅配备了 2TB/s 的内存带宽和 128GB 的 GDDR7 内存。相比之下,双芯片 R200 提供 33.3 PFLOPS 的 FP4 密集计算能力和 20.5TB/s 的内存带宽以及 288GB 的 HBM。

这将带来成本效益的显著提升,SemiAnalysis 报告指出,将 HBM 切换为更便宜的 GDDR7 内存,每 GB 成本可降低 50% 以上。这意味着,在预填充阶段,Rubin CPX 能够以远低于 R200 的成本,提供高效的计算能力,从而大幅降低总体拥有成本(TCO)。

SemiAnalysis 指出,该芯片设计类似于下一代 RTX 5090 或 RTX PRO 6000 Blackwell,使用大型单片式芯片和 512 位宽 GDDR7 内存接口。但与基于消费者 Blackwell GPU 芯片仅有其 HBM 版本 20% FLOPS 不同,Rubin CPX 的比例跃升至 60%,因为它将是更接近 R200 计算芯片的独立流片设计。

全新机架级架构:三种部署方案

英伟达推出三种 Vera Rubin 机架配置:VR200 NVL144(仅 Rubin)、VR200 NVL144 CPX(Rubin+Rubin CPX 混合)、以及 Vera Rubin CPX 双机架方案,具体来看:

NVL144 CPX 机架: 英伟达推出了 VR NVL144 CPX(Vera Rubin NVL144 CPX)机架,将 Rubin GPU 与 Rubin CPX GPU 整合。每个计算托盘(Compute Tray)将包含 4 个 R200 GPU(用于解码)和 8 个 Rubin CPX GPU(用于预填充)。这种异构配置使得系统能同时高效处理推理的两个阶段。

双机架解决方案: Vera Rubin CPX 双机架方案提供了更大的灵活性,允许客户根据自身工作负载需求,单独部署 VR NVL144(纯 Rubin GPU)机架和 VR CPX(纯 Rubin CPX GPU)机架,以精确调整预填充与解码的比例(PD ratio)。

SemiAnalysis 详细分析了无线缆设计的技术革新。由于高密度设计无法为线缆布线留出空间,英伟达采用 PCB 中板和 Amphenol Paladin 板对板连接器实现信号传输。CX-9 网卡从机箱后半部分移至前半部分,使 200G 以太网 /InfiniBand 信号传输距离缩短,而较低速度的 PCIe Gen6 信号承担更长距离传输,提高了可靠性和可维护性。

液冷采用夹层式液冷设计,Rubin CPX 和 CX-9 网卡采用夹层式设计,共享液冷冷板,最大化了 1U 托盘空间内的 GPU 密度和散热效率,这种设计在英伟达 2009 年的 GTX 295 上曾有类似实践。

预填充流水线并行:高效利用资源的关键

Rubin CPX 的另一个重要优势在于其对预填充流水线并行(Pipeline Parallelism)的优化。

降低网络成本: 预填充阶段的通信需求较低,因此 Rubin CPX 放弃了昂贵的快速横向扩展网络(如 NVLink)。PCIe Gen6 x16 的带宽(约 1Tbit/s)足以满足现代 MoE LLM 的预填充需求。

更高的吞吐量: 流水线并行在每个 GPU 上提供更高的 Token 吞吐量,因为它涉及简单的发送和接收操作,而不是专家并行(EP)中的所有到所有集体操作。

显著的 TCO 节省: NVLink 横向扩展的成本约为每 GPU 8000 美元,占集群总成本的 10% 以上。Rubin CPX 通过避免使用这些昂贵的网络设备,为最终用户带来了巨大的成本节省。

分离式推理服务的技术突破

SemiAnalysis 介绍,业界首先尝试将预填充和解码请求路由到不同计算单元,以解决两种工作负载间的相互干扰问题。这种方法能更好地管理服务级别协议 ( SLA ) ,但仍存在 " 错误配置 " 问题——纯预填充操作几乎总是严重浪费内存带宽资源。

SemiAnalysis 强调,LLM 请求处理包含两个阶段:预填充阶段影响首令牌时间(TTFT),通常受计算限制;解码阶段影响每输出令牌时间(TPOT),总是受内存限制。

分析显示,当序列长度超过 32k 时,FLOPS 利用率达到 100%,而内存带宽利用率下降。使用 R200 进行纯预填充操作时,每小时总拥有成本浪费达 0.90 美元,而 Rubin CPX 通过使用成本更低的内存显著降低了这种浪费。

在管道并行推理中,Rubin CPX 的 PCIe Gen6 x16 接口提供约 1Tbit/s 单向带宽,足以处理现代 MoE 前沿 LLM 的预填充任务。Rubin CPX 提供更大内存容量,但使用的是 " 较低质量 " 的 GDDR7 内存,每 GB 成本不到 HBM 的一半。从内存供应商角度看,GDDR7 利润率较低,因为技术要求不高且竞争更激烈 ( 如 Samsung 可以供应 ) 。

HBM 需求可能下降?整体内存市场需求将增长?

CPX 系统的使用降低了 HBM 在总系统成本中的占比。对于 VR200 NVL144 CPX 或 VR CPX 机架的每一美元支出,相比独立 VR200 NVL144 机架,分配给 HBM 的比例更低。在 AI 系统支出固定的假设下,每美元支出的 HBM 需求将下降。

进一步来看,SemiAnalysis 报告表示,英伟达 Rubin CPX 架构虽然降低了内存使用率,但反而可能推动整体内存市场规模扩大,GDDR7 供应链格局面临重塑。

技术现实更为复杂。 Rubin CPX 的作用机制是降低预填充和令牌的成本。当令牌成本降低时,需求随之增加,这意味着解码需求也会相应上升。与许多其他降低成本的技术创新类似,需求的增长通常会超过成本的下降,最终推动整体市场规模扩大。

Rubin CPX 对 GDDR7 的需求激增,正在重塑内存供应链格局,其影响已经开始显现。值得关注的是,RTX Pro 6000 同样使用 GDDR7 内存,但速度较低,为 28Gbps。英伟达已经为 RTX Pro SKU 下达了大规模供应链订单。

在这轮 GDDR7 需求激增中,三星成为最大受益者。由于能够满足英伟达突然涌现的大批量订单需求,这些订单主要流向了三星。相比之下,SK 海力士和美光科技未能满足这一需求,主要原因是它们的晶圆产能被 HBM 订单等其他业务占用。

竞争对手被远远甩在身后

SemiAnalysis 报告表示,Rubin CPX 的引入,令英伟达的机架系统设计能力与竞争对手之间的差距达到了 " 峡谷 " 级别。

英伟达所有竞争对手或将不得不再次重新配置他们的整个路线图,就像 Oberon 架构改变了整个行业的路线图一样。他们需要再次加大投资,开发自己的预填充芯片,这将进一步延迟他们缩小与英伟达差距的时间。

SemiAnalysis 认为,Google TPU 凭借 3D 环形扩展网络优势,支持最大 9216 个 TPU 的集群规模,应开发预填充专用芯片维持性价比优势。

AMD 的追赶策略面临重大挑战,MI400 72 GPU 机架级系统原本有望在 TCO 方面与 VR200 NVL144 竞争,但英伟达将 VR200 内存带宽提升至 20.5TB/s,与 MI400 持平。如果 MI400 的实际 FP4 性能与 VR200 NVL144 相当或更低,AMD 将再次落后于英伟达。

据 SemiAnalysis 评估,AMD 缺乏强大的内部工作负载支撑,需要在开发机架级系统和改进软件的同时,再开辟预填充专用芯片战线,才有望在 2027 年追上英伟达。

AWS Trainium3 和 Meta MTIAv4 等拥有内部工作负载的供应商具备开发预填充专用芯片的优势。但 AWS 面临技术挑战,因为 1U 计算托盘空间有限,可能需要采用 EFA 网卡侧车机架和外部 PCIe AEC 线缆的解决方案。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 ai 花旗 芯片 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论