英伟达突然发布新GPU！单机架AI性能暴涨6500%，100TB大内存，专攻长上下文推理

企业每投资 1 亿美元，即可获得 50 亿美元的 token 收益。

作者 | ZeR0

编辑 | 漠影

芯东西 9 月 10 日报道，昨晚，英伟达又放 AI 计算大招，推出专为长上下文推理和视频生成应用设计的新型专用 GPU ——NVIDIA Rubin CPX。

英伟达创始人兼 CEO 黄仁勋说：" 正如 RTX 彻底改变了图形和物理 AI 一样，Rubin CPX 是首款专为海量上下文 AI 打造的 CUDA GPU，这种 AI 模型可以同时处理数百万个知识 token 的推理。"

Rubin CPX 配备128GB GDDR7 内存，NVFP4精度下 AI 算力可达30PFLOPS，非常适合运行长上下文处理（超过 100 万个 token）和视频生成任务。

Vera Rubin NVL144 CPX 平台可在单机架集成 144 张 Rubin CPX GPU、144 张 Rubin GPU、36 张 Vera CPU，提供8EFLOPS的 AI 性能（NVFP4 精度）和100TB的快速内存，内存带宽达到1.7PB/s。

其 AI 性能是英伟达 Vera Rubin NVL144 平台的2倍多，是基于 Blackwell Ultra 的 GB300 NVL72 系统的7.5 倍，相比 GB300 NVL72 系统还能提供3 倍更快的注意力机制。

Rubin CPX GPU 预计将于2026 年底上市。

9 月 17 日，智猩猩发起主办的 2025 全球 AI 芯片峰会将在上海举办。大会设有主论坛，大模型 AI 芯片、AI 芯片架构两大专题论坛，以及存算一体、超节点与智算集群两大技术研讨会，近 40 位嘉宾将分享和讨论。IEEE Fellow 王中风教授将开场，华为昇腾等国产 AI 芯片力量集结，华为云、阿里云领衔超节点与智算集群势力。扫码报名 ~

01.

全新专用 GPU：

128GB 内存，30PFLOPS 算力

Rubin CPX 基于 NVIDIA Rubin 架构构建，采用经济高效的单芯片设计，配备128GB GDDR7 内存，采用NVFP4精度，并经过优化，算力可达30PFLOPS，能够为 AI 推理任务，尤其是长上下文处理（超过 100 万个 token）和视频生成，提供了远超现有系统的性能和 token 收益。

与英伟达 GB300 NVL72 系统相比，这款专用 GPU 还提供了3 倍更快的注意力机制，从而提升了 AI 模型处理更长上下文序列的能力，而且速度不会降低。

相比之下，今年 3 月发布的 Rubin GPU，在 FP4 精度下峰值推理能力为 50PFLOPS。而英伟达在今年 6 月才公布创新型 4 位浮点格式 NVFP4，这种格式的目标是在超低精度下力求保持模型性能。

其分析表明，当使用训练后量化（PTQ）将 DeepSeek-R1-0528 从原始 FP8 格式量化为 NVFP4 格式时，其在关键语言建模任务上的准确率下降幅度不超过 1%。在 AIME 2024 中，NVFP4 的准确率甚至提高了 2%。

Rubin CPX 采用的 GDDR7，价格比 Rubin GPU 配备的 288GB HBM4 高带宽内存更便宜。

02.

单机架 AI 性能达 30EFLOPS，

提供 100TB 快速内存、1.7PB/s 内存带宽

Rubin CPX 与全新NVIDIA Vera Rubin NVL144 CPX 平台中的英伟达 Vera CPU 和 Rubin GPU 协同工作，进行生成阶段处理，形成一个完整的高性能分解式服务解决方案。

其 AI 性能是英伟达 Vera Rubin NVL144 平台的2倍多，是基于 Blackwell Ultra 的 GB300 NVL72 机架式系统的7.5 倍。

英伟达还在周二分享了 GB300 NVL72 系统的基准测试结果，其 DeepSeek-R1 推理性能提升到上一代的 1.4 倍。该系统还创下 MLPerf Inference v5.1 套件中添加的所有新数据中心基准测试的记录，包括 Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper 的记录。

英伟达计划为希望重复使用现有 Vera Rubin 144 系统的客户配备专用的 Rubin CPX 计算托盘（tray）。

Rubin CPX 提供多种配置，包括 Vera Rubin NVL144 CPX，可与 NVIDIA Quantum ‑ X800 InfiniBand 横向扩展计算架构或搭载英伟达 Spectrum-XGS 以太网技术和 ConnectX-9 SuperNIC 的 Spectrum-X 以太网网络平台结合使用。

英伟达预计将推出一款双机架产品，将 Vera Rubin NVL144 和 Vera Rubin NVL144 机架结合在一起，将快速内存容量提升至150TB。

03.

为分解式推理优化而生，

与英伟达旗舰 GPU 搭配用

这款全新的专用 GPU，跟英伟达之前发布的旗舰 GPU 有什么区别？

据英伟达数据中心产品总监 Shar Narasimhan 分享，Rubin CPX 将作为英伟达的专用 GPU，用于上下文和预填充计算，从而显著提升海量上下文 AI 应用的性能。原版 Rubin GPU 则负责生成和解码计算。

推理由两个阶段组成：上下文阶段和生成阶段。这两个阶段对基础设施的要求截然不同。

上下文阶段受计算能力限制，需要高吞吐量处理来提取和分析大量输入数据，最终生成第一个 token 输出结果。

生成阶段受内存带宽限制，依赖于快速内存传输和高速互连（如 NVLink）来维持逐 token 输出性能。

分解式推理使这些阶段能够独立处理，从而实现对计算和内存资源的有针对性的优化。这种架构转变可提高吞吐量，降低延迟，并提升整体资源利用率。

但分解会带来新的复杂性，需要在低延迟键值缓存传输、大语言模型感知路由和高效内存管理之间进行精确协调。

英伟达打造 Rubin CPX GPU，就是为了在计算密集型长上下文阶段实现专业的加速，并将该专用 GPU 无缝集成到分解式基础架构中。

英伟达通过将 GPU 功能与上下文和生成工作负载相结合来优化推理。

Rubin CPX GPU 专为高效处理长序列而优化，旨在增强长上下文性能，补充现有基础架构，提升吞吐量和响应速度，同时提供可扩展的效率，并最大化大规模生成式 AI 工作负载的投资回报率（ROI）。

为了处理视频，AI 模型可能需要处理 1 小时内容中多达 100 万个 token，这挑战了传统 GPU 计算的极限。Rubin CPX 将视频解码器和编码器以及长上下文推理处理集成在单芯片中，为视频搜索和高质量生成视频等应用提供了前所未有的功能。

Rubin CPX 将能够运行 NVIDIA Nemotron 系列最新的多模态模型，为企业级 AI agent 提供最先进的推理能力。对于生产级 AI，Nemotron 模型可以通过 NVIDIA AI Enterprise 软件平台交付。

04.

结语：30~50 倍投资回报率，

每投资 1 亿美元可带来 50 亿美元收益

Vera Rubin NVL144 CPX 采用英伟达 Quantum-X800 InfiniBand 或 Spectrum-X 以太网，搭配 ConnectX-9 SuperNIC 并由 Dynamo 平台协调，旨在为下一波百万 token 上下文 AI 推理工作负载提供支持，降低推理成本。

在规模化运营下，该平台可实现 30~50 倍的投资回报率，相当于每1 亿美元的资本支出即可带来高达50 亿美元的 token 收益。英伟达称这 " 为推理经济学树立了新的标杆 "。

Rubin CPX 将使 AI 编程助手从简单的代码生成工具转变为能够理解和优化大型软件项目的复杂系统。

知名的美国 AI 编程平台 Cursor、AI 视频生成创企 Runway、AI 编程创企 Magic 等正在探索用 Rubin CPX GPU 加速他们的代码生成、复杂视频生成等应用。

宙世代

一起剪

相关标签