雷锋网 03-21
推理和机器人,哪一个才是英伟达「AI工厂」的增长故事?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

雷峰网消息,北京时间 3 月 19 日凌晨,英伟达公司创始人兼 CEO 黄仁勋在 GTC 会议上发表主题演讲。

DeepSeek 爆火后,英伟达被推上风口浪尖,对于 AI 发展是否会带来更大数量级的算力需求,市场生出隐忧。演讲开场,黄仁勋便做出回答" 全世界都错了,Scaling law 有更强的韧性,现在的计算量是去年同期的 100 倍。"

推理让 AI 具备 " 思维链 ",模型响应需求时会对问题进行拆解,而不是直接给出答案,对每个步骤进行推理势必让产生的 Token 数量增加。模型变得更加复杂,为了保证原有的推理速度以及响应能力,便对算力提出了更高的要求。

Token 是 AI 的基本单元,推理模型本质上是一座生产 Token 的工厂,提高 Token 的生产速度就是提高工厂的生产效率,效率越高,利益越大,算力要做的就是探索生产效率的边界。

而具备自主推理能力的 Agentic AI 发展趋势之下,势必带动物理 AI 的发展。GTC 会议上,英伟达带来 Blackwell Ultra、推理系统 Dynamo、Blackwell NVLink 72、下一代 AI 芯片 Rubin 等全新发布,用性能回应需求。

AI 芯片将「年更」,Rubin 性能达 Hopper「900 倍」

AI 的发展让数据中心的资本支出不断攀升,数据显示,2028 年数据中心资本支出将达到 1 万亿美元,黄仁勋称:" 这其中的大部分增长可能还会加速。"资本支出增加、盈利能力提升,带来的是英伟达在数据中心领域的营收增加。

为了让计算机成为更强的 "Token 生成器 ",英伟达发布新一代 " 最强 AI 芯片 " Blackwell Ultra。

单从硬件上看,Blackwell Ultra 相较于 GB200 带来的最大升级是采用 12 层堆叠的 HBM3e 内存,成为全球首个显存达到 288GB 的 GPU。对此,有消息称,SK 海力士将独家供应 Blackwell Ultra。

高效响应推理模型,对算力、内存及带宽提出更高的要求。英伟达推出 Blackwell Ultra GB300 NVL72 机架级解决方案,集成72 个 Blackwell Ultra GPU 和 36 个 Grace CPU,满足 AI 推理工作负载对算力和内存的要求。

Blackwell Ultra GB300 NVL72 将于 2025 年下半年发布,其性能为 GB200 NVL72 的 1.5 倍、40TB 快速闪存为前代 1.5 倍,14.4TB/s 带宽为前代 2 倍。

要更好释放硬件的算力,软硬件协同变得更加重要,为此,英伟达推出分布式推理服务库 NVIDIA Dynamo,通过协调并加速数千个 GPU 之间的推理通信,为部署推理 AI 模型的 AI 工厂最大化其 token 收益。

在 GPU 数量相同的情况下,Dynamo 可以实现 Hopper 平台上运行 Llama 模型的 AI 工厂性能和收益翻倍,在由 GB200 NVL72 机架组成的集群上运行 DeepSeek-R1 模型时,Dynamo 的智能推理优化能将每个 GPU 生成的 Token 数量提高 30 倍以上,并让 Blackwell 的性能相较于 Hopper 提升了 25 倍。

黄仁勋表示,Dynamo 将完全开源并支持 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM,使企业、初创公司和研究人员能够开发和优化在分离推理时部署 AI 模型的方法。

在推理模型中,Dynamo 则让 Blackwell 的性能达到 Hopper 的 40 倍,黄仁勋笑称:" 当 Blackwell 批量发货时,就不要再拿 Hopper 去送人了。"

以功率为 100 兆瓦的 AI 工厂为例,其能供能 45000 个 H100 芯片,共计 1400 个 H100 NVL8 机架,生产力为 3 亿个 Token。同等功率下,其能供能 85000 个 GB200 芯片,共计 600 个机架,生产力为 120 亿个 Token。相较于 H100 NVL8,GB200 NVL72 不仅带来更强的算力,而且在功耗和空间占用上更有优势。

" 买得越多,省得越多。" 黄仁勋又说出了他的带货名言,这次还补充道," 买得越多,赚得越多。"

旗舰版 AI 芯片作为 GTC 的" 最大看点 ",仅仅宣布 Blackwell Ultra 很难满足外界预期。对此,黄仁勋公布了英伟达旗舰芯片的全新路线图,芯片架构的更新周期正在加速,由每两年推出新的产品线调整为 " 每年一更 " 的产品节奏。

每代产品更新均基于全栈解决方案、依托统一架构,并秉持 "CUDA 无处不在 " 的理念推进。按照路线图规划,黄仁勋提前预告了下一代 AI 芯片 "Rubin",遵循以往采用科学家名字命名架构的惯例,本次新架构以美国天文学家 "Vera Rubin" 的姓氏命名,以纪念其证实了暗物质存在的卓越贡献。

Vera Rubin NVL144 预计将在 2026 年下半年发布,在进行 FP4 精度的推理任务时,性能达到 3.6ExaFLOPS,进行 FP8 精度的训练任务时,性能为 1.2ExaFLOPS,与 GB300 NVL72 相比,性能提升了 3.3 倍。

Vera Rubin NVL144 配备 HBM4,带宽达到 13TB/s,拥有达到前代 1.6 倍的 75TB 快速闪存。支持 NVLink6 和 CX9,带宽均达到前代 2 倍,实现数据传输效率的提升。

黄仁勋表示,Blackwell 的性能相较于 Hopper 提升了 68 倍,而 Rubin 的性能将达到 Hopper 的 900 倍。

与 Blackwell 一样,除了标准版本,英伟达还计划于 2027 年下半年推出 Rubin Ultra NVL576,在进行 FP4 精度的推理任务时,其性能达到 15ExaFLOPS,进行 FP8 精度的训练任务时,性能为 5ExaFLOPS,与 GB300 NVL72 相比,性能提升了 14 倍。

Vera Rubin NVL144 将配备 HBM4e,带宽达到 4.6PB/s,拥有达到前代 8 倍的 365TB 快速内存。支持 NVLink7,带宽 1.5PB/s,为前代 12 倍。支持 CX9,带宽 115.2TB/s,为前代 8 倍。

CPU 部分,Vera 芯片搭载 88 个定制 Arm 核心,支持 176 线程,具备 1.8TB/s 的 NVLink - C2C(芯片到芯片)带宽,在多芯片互联等场景下能高效传输数据。GPU 方面,Rubin Ultra 集成 4 个 Reticle-Sized GPU,每颗 GPU 拥有 100PF 的 FP4 算力,搭配 1TB HBM4e 显存,在性能和内存容量上达到新高。 

在训练、推理及应用部署等关键环节,AI 芯片平台都需要网络为其提供高速稳定的数据传输。英伟达推出 Spectrum-X 和 Quantum-X 硅光网络交换机,为全球最先进的 AI 云及 AI 工厂提供支持。

Spectrum-X 网络交换机有多种配置,最高配置 512 端口 800Gb/s 或 2048 端口 200Gb/s,总吞吐量达 400Tb/s。与之配套的 Quantum - X 网络交换机基于 200Gb/s SerDes 技术,提供 144 端口 800Gb/s 的 InfiniBand 连接,与上一代相比,速度提升 2 倍、可扩展性提升 5 倍。

不止 AI 工厂,DGX Spark 和 DGX Station 打造「AI 桌面」

为了支持 AI 开发者、研究人员、数据科学家和学生等群体,英伟达推出 " 全球最小 AI 超级计算机 "DGX Spark,其支持在台式电脑上对大模型进行原型设计、微调和推理,用户可以在本地、云或数据中心基础设施中运行这些模型。

DGX Spark 是基于 GB10 Grace Blackwell 打造的个人 AI 超级计算机系列产品,根据台式电脑外形规格进行了针对性优化,其支持第五代 Tensor Core 和 FP4,每秒计算次数达到 1000 万亿次。GB10 采用 NVIDIA NVLink-C2C 互连技术,带宽是第五代 PCIe 的五倍,并且能够访问 GPU 和 CPU 之间的数据,为内存密集型 AI 开发者工作负载优化性能。

英伟达的全栈 AI 平台支持 DGX Spark 用户将其模型从台式机迁移到 DGX Cloud、其他加速云及数据中心基础设施中,并且无需修改代码,简化了对其工作流进行原型设计、微调和迭代的要求。

黄仁勋表示:"AI 改变了每一层计算堆栈。我们有理由相信将出现一类专为 AI 原生开发者而设计并用于运行 AI 原生应用的新型计算机。借助全新的 DGX 个人 AI 计算机,AI 能够从云服务扩展到台式电脑和边缘应用。"  

DGX Station 是 Ultra 平台的高性能桌面超级计算机,定位为面向企业和科研机构的高性能 AI 计算站,能够帮助企业构建私有 AI 推理系统,相较于 DGX Spark,适用于更大规模的 AI 开发领域。

DGX Station 是第一款采用英伟达 GB300 Grace Blackwell Ultra桌面超级芯片构建的台式机系统,拥有 784GB 统一系统内存,支持 800Gb/s 网络连接的 ConnectX-8 SuperNIC,AI 性能达到 20PFLOPS。

从数据、模型到算力,英伟达「全面驱动」人形机器人

" 机器人时代已经到来,其能够与物理世界交互并执行数字信息无法完成的任务。"黄仁勋说," 世界正面临严重的劳动力短缺,到 2030 年,全世界将短缺 5000 万名工人,我们可能不得不每年支付 5 万美元薪水给机器人。"

物理 AI 正在改变规模 50 万亿美元的产业。英伟达推出全新 Cosmos 世界基础模型,引入开放式、可完全定制的物理 AI 开发推理模型,包含各种模型尺寸并适用于多种输入数据格式,帮助生成大型数据集,能将图像从 3D 扩展到真实场景,缩小仿真与现实之间的差距。

1X、Agility Robotics、Figure AI、Foretellix、Skild AI 和 Uber 是首批采用 Cosmos 的企业,可更快、更大规模地为物理 AI 生成更丰富的训练数据。

" 正如大语言模型改变了生成式和代理式 AI,Cosmos 世界基础模型是物理 AI 的一项重大突破。"黄仁勋表示, "Cosmos 为物理 AI 带来了一个开放式、可完全定制的推理模型,为机器人和物理工业领域的突破性发展带来了机遇。"

满足数据需求之外,英伟达推出人形机器人基础模型 Isaac GR00T N1,采用 " 快速反应 " 的系统 1 以及 " 深度推理 " 的系统 2 双架构,黄仁勋表示,Isaac GR00T N1 将开源,机器人开发者可以用真实或合成数据进行后训练。

Isaac GR00T N1 基础模型采用广义类人推理和技能进行了预训练,开发者可以通过进行后训练,使其满足特定的需求,例如完成不同工厂生产线的特定任务以及自主完成不同的家务。

英伟达、谷歌 DeepMind 及迪士尼合作开发了开源物理引擎 Newton,采用 Isaac GR00T N1 作为底座驱动了迪士尼 BDX 机器人。

人形机器人是 AI 时代下一个增长点,从数据生成、基础大模型到算力,英伟达为开发者提供了全面支持。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 英伟达 黄仁勋 ai芯片 数据中心
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论