英伟达发布Rubin CPX，瞄准超长上下文处理，黄仁勋称一次推理数百万token

美东时间 9 月 9 日周二，英伟达发布新一代 Rubin CPX 芯片系统，专门针对 AI 视频生成和软件开发等大规模上下文处理任务，强化 AI 编码和视频处理能力。

Rubin CPX 定于 2026 年底上市，采用卡片形式，可集成到现有服务器设计中或作为独立计算设备在数据中心运行。

这款芯片系统在技术规格上实现重大突破。Rubin CPX GPU 提供 30 千万亿次浮点（petaflops）运算能力（NVFP4 精度），配备 128GB GDDR7 内存，支持视频解码和编码的硬件，相比英伟达 GB300 NVL72 系统，注意力加速 3 倍。

完整的 Vera Rubin NVL144 CPX 平台在单个机架中集成 144 个 Rubin CPX GPU、144 个 Rubin GPU 和 36 个 Vera CPU，提供 8 exaflops AI 性能，性能为英伟达 GB300 NVL72 系统的 7.5 倍。

英伟达 CEO 黄仁勋表示，Rubin CPX 是首款专为百万级 token 处理而构建的 CUDA GPU。他说：

" 正如 RTX 革命性地改变了图形和物理 AI，Rubin CPX 是首款专为大规模上下文 AI 而构建的 CUDA GPU，模型可以同时进行数百万个知识 token 的推理。"

英伟达宣称，新芯片的投资回报率达到 30 至 50 倍，部署价值 1 亿美元的新芯片硬件将为客户带来高达 50 亿美元收入，即从 1 亿美元的资本支出中获得高达 50 亿美元的收入。该预测强调了英伟达对 AI 基础设施商业价值的量化努力。

技术创新：分离式推理架构提升效率

Rubin CPX 采用分离式推理架构，将 AI 计算过程分为上下文阶段和生成阶段。上下文阶段需要高吞吐量计算来处理大量输入数据，而生成阶段则依赖快速内存传输和高速互连。

这种设计允许两个阶段独立处理，实现计算和内存资源的精准优化。Rubin CPX 专门针对计算密集型的上下文阶段进行优化，与现有基础设施协同工作，提供 3 倍的注意力加速性能。

该平台配备 100TB 高速内存和每秒 1.7 千万亿字节的内存带宽，通过英伟达 Quantum-X800 InfiniBand 或 Spectrum-X 以太网连接，由 Dynamo 平台统一协调。

应用场景：重塑软件开发和视频生成

在软件开发领域，Rubin CPX 使 AI 系统能够处理整个代码库，维护跨文件依赖关系，理解仓库级结构。这将编程助手从自动完成工具转变为智能协作伙伴，能够理解 " 大规模软件项目 "。

视频生成方面，该系统可在单个芯片上完成解码、编码和处理，AI 模型能够处理多达 100 万个 token 的一小时内容。这为长视频内容生成提供了前所未有的连贯性和记忆能力。

多家公司已表达合作意向。代码生成公司 Cursor 计划使用该技术进行代码生成，视频创作平台 Runway 将其应用于视频生成工作流程，AI 研究公司 Magic 则计划利用该技术构建具有 1 亿 token 上下文窗口的基础模型。

市场影响：巩固英伟达 AI 基础设施优势

Rubin CPX 的发布进一步巩固了英伟达在 AI 基础设施领域的领先地位。据分析师估计，英伟达的数据中心业务本财年收入有望达到 1840 亿美元，超过业内其他公司的总收入。

该产品体现了英伟达在硬件和软件创新方面的持续投入，这种速度是竞争对手尚未匹及的。通过专门针对特定 AI 工作负载优化硬件，英伟达继续保持行业对其产品的依赖。

新平台预计将为企业构建下一代生成式 AI 应用创造新的可能性，特别是在需要处理大规模上下文的高价值推理用例中。这标志着 AI 基础设施从通用计算向专用优化的重要转变。

宙世代