老黄抛出2700W功耗真核弹还有240TB显存的AI超级计算机

作者：丨个氼

时隔 5 年，全球顶尖 AI 计算技术盛会、年度 NVIDIA GTC 大会重磅回归线下，英伟达创始人兼 CEO 黄仁勋发表长达 123 分钟的主题演讲，发布 AI 芯片最新震圈之作——Blackwell GPU 架构，以及基于此的 B100/B200 GPU 芯片、GB200 超级芯片、DGX 超级计算机，傲视全球。

号称是 " 世界最强大的芯片 "：集成 2080 亿颗晶体管，采用定制台积电 4NP 工艺，承袭 " 拼装芯片 " 的思路，采用统一内存架构 + 双芯配置，将 2 个受光刻模板（reticle）限制的 GPU die 通过 10TB/s 芯片间 NVHyperfuse 接口连一个统一 GPU，共有192GB HBM3e 内存、8TB/s 显存带宽，单卡 AI 训练算力可达20PFLOPS。

跟上一代 Hopper 相比，Blackwell 因为集成了两个 die，面积变大，比 Hopper GPU 足足多了 1280 亿个晶体管。对比之下，前代 H100 只有 80GB HBM3 内存、3.35TB/s 带宽，H200 有 141GB HBM3e 内存、4.8TB/s 带宽。

第二代 Transformer 引擎：将新的微张量缩放支持和先进的动态范围管理算法与 TensorRT-LLM 和 NeMo Megatron 框架结合，使 Blackwell 具备在FP4 精度的 AI 推理能力，可支持2 倍的计算和模型规模，能在将性能和效率翻倍的同时保持混合专家模型的高精度。 ‍‍

在全新 FP4 精度下，Blackwell GPU 的 AI 性能达到 Hopper 的5 倍。英伟达并未透露其 CUDA 核心的性能，有关架构的更多细节还有待揭晓。

第五代 NVLink：为了加速万亿参数和混合专家模型的性能，新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽，支持多达 576 个 GPU 间的无缝高速通信，适用于复杂大语言模型。

单颗 NVLink Switch 芯片有 500 亿颗晶体管，采用台积电 4NP 工艺，以 1.8TB/s 连接 4 个 NVLink。

RAS 引擎：Blackwell GPU 包括一个确保可靠性、可用性、可维护性的专用引擎，还增加了芯片级功能，可利用基于 AI 的预防性维护来进行诊断和预测可靠性问题，最大限度延长系统的正常运行时间，提高大规模 AI 部署的弹性，一次可不间断地运行数周甚至数月，并降低运营成本。

至于功耗，B100 控制在 700W，和上代 H100 完全一致，B200 则首次达到了 1000W。英伟达宣称，Blackwell GPU 能够在 10 万亿参数的大模型上实现 AI 训练和实时大语言模型推理。

GB200 Grace Blackwell 是继 Grace Hopper 之后的新一代超级芯片 ( Superchip ) ，从单颗 GPU+ 单颗 CPU 升级为两颗 GPU 加一颗 CPU，其中 GPU 部分就是 B200，CPU 部分不变还是 Grace，彼此通过 900GB/s 的带宽实现超低功耗片间互联。

在大语言模型推理工作负载方面，GB200 超级芯片的性能对比 H100 提升了多达 30 倍。不过代价也很大，GB200 的功耗最高可达 2700W，可以使用分冷，更推荐使用液冷。

基于 GB200 超级芯片，英伟达打造了新一代的 AI 超级计算机 "DGX SuperPOD"，配备 36 块超级芯片，也就是包含 36 颗 Grace CPU、72 颗 B200 GPU，彼此通过 NVLink 5 组合在一起，还有多达 240TB HBM3E。

这台 AI 超级计算机可以处理万亿参数的大模型，能保证超大规模生成式 AI 训练和推理工作负载的持续运行，FP4 精度下的性能高达 11.5EFlops ( 每秒 1150 亿亿次 ) 。

DGX SuperPOD 还具有极强的扩展性，可通过 Quantum-X800 InfiniBand 网络连接，扩展到数万颗 GB200 超级芯片，并加入 BlueField-3 DPU 数据处理单元，而每颗 GPU 都能获得 1.8TB/s 的高带宽。

第四代可扩展分层聚合和规约协议 ( SHARP ) 技术，可提供 14.4TFlops 的网络计算能力，比上代提升 4 倍。

英伟达还发布了第六代通用 AI 超级计算平台 "DGX B200"，包含两颗 Intel 五代至强处理器、八颗 B200 GPU，具备 1.4TB HBM3E、64TB/s 带宽，FP4 精度性能 144PFlops ( 每秒 14 亿亿次 ) ，万亿参数模型实时推理速度提升 15 倍。

DGX B200 系统还集成八个英伟达 ConnectX-7 网卡、两个 BlueField-3 DPU 高性能网络，每个连接带宽高达 400Gb/s，可通过 Quantum-2 InfiniBand、Spectrum-X 以太网网络平台，扩展支持更高的 AI 性能。

基于 Blackwell GPU 的产品将在今年晚些时候陆续上市，亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI 等都会采纳。

本文来自什么值得买网站（www.smzdm.com）。

宙世代

智慧云

相关标签