全天候科技 09-09
英伟达发布Rubin CPX,瞄准超长上下文处理,黄仁勋称一次推理数百万token
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

美东时间 9 月 9 日周二,英伟达发布新一代 Rubin CPX 芯片系统,专门针对 AI 视频生成和软件开发等大规模上下文处理任务,强化 AI 编码和视频处理能力。

Rubin CPX 定于 2026 年底上市,采用卡片形式,可集成到现有服务器设计中或作为独立计算设备在数据中心运行。

这款芯片系统在技术规格上实现重大突破。Rubin CPX GPU 提供 30 千万亿次浮点(petaflops)运算能力(NVFP4 精度),配备 128GB GDDR7 内存,支持视频解码和编码的硬件,相比英伟达 GB300 NVL72 系统,注意力加速 3 倍。

完整的 Vera Rubin NVL144 CPX 平台在单个机架中集成 144 个 Rubin CPX GPU、144 个 Rubin GPU 和 36 个 Vera CPU,提供 8 exaflops AI 性能,性能为英伟达 GB300 NVL72 系统的 7.5 倍。

英伟达 CEO 黄仁勋表示,Rubin CPX 是首款专为百万级 token 处理而构建的 CUDA GPU。他说:

" 正如 RTX 革命性地改变了图形和物理 AI,Rubin CPX 是首款专为大规模上下文 AI 而构建的 CUDA GPU,模型可以同时进行数百万个知识 token 的推理。"

英伟达宣称,新芯片的投资回报率达到 30 至 50 倍,部署价值 1 亿美元的新芯片硬件将为客户带来高达 50 亿美元收入,即从 1 亿美元的资本支出中获得高达 50 亿美元的收入。该预测强调了英伟达对 AI 基础设施商业价值的量化努力。

技术创新:分离式推理架构提升效率

Rubin CPX 采用分离式推理架构,将 AI 计算过程分为上下文阶段和生成阶段。上下文阶段需要高吞吐量计算来处理大量输入数据,而生成阶段则依赖快速内存传输和高速互连。

这种设计允许两个阶段独立处理,实现计算和内存资源的精准优化。Rubin CPX 专门针对计算密集型的上下文阶段进行优化,与现有基础设施协同工作,提供 3 倍的注意力加速性能。

该平台配备 100TB 高速内存和每秒 1.7 千万亿字节的内存带宽,通过英伟达 Quantum-X800 InfiniBand 或 Spectrum-X 以太网连接,由 Dynamo 平台统一协调。

应用场景:重塑软件开发和视频生成

在软件开发领域,Rubin CPX 使 AI 系统能够处理整个代码库,维护跨文件依赖关系,理解仓库级结构。这将编程助手从自动完成工具转变为智能协作伙伴,能够理解 " 大规模软件项目 "。

视频生成方面,该系统可在单个芯片上完成解码、编码和处理,AI 模型能够处理多达 100 万个 token 的一小时内容。这为长视频内容生成提供了前所未有的连贯性和记忆能力。

多家公司已表达合作意向。代码生成公司 Cursor 计划使用该技术进行代码生成,视频创作平台 Runway 将其应用于视频生成工作流程,AI 研究公司 Magic 则计划利用该技术构建具有 1 亿 token 上下文窗口的基础模型。

市场影响:巩固英伟达 AI 基础设施优势

Rubin CPX 的发布进一步巩固了英伟达在 AI 基础设施领域的领先地位。据分析师估计,英伟达的数据中心业务本财年收入有望达到 1840 亿美元,超过业内其他公司的总收入。

该产品体现了英伟达在硬件和软件创新方面的持续投入,这种速度是竞争对手尚未匹及的。通过专门针对特定 AI 工作负载优化硬件,英伟达继续保持行业对其产品的依赖。

新平台预计将为企业构建下一代生成式 AI 应用创造新的可能性,特别是在需要处理大规模上下文的高价值推理用例中。这标志着 AI 基础设施从通用计算向专用优化的重要转变。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

英伟达 ai 芯片 黄仁勋 软件开发
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论