什么值得买 03-19
老黄抛出2700W功耗真核弹 还有240TB显存的AI超级计算机
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者:丨个氼

时隔 5 年,全球顶尖 AI 计算技术盛会、年度 NVIDIA GTC 大会重磅回归线下,英伟达创始人兼 CEO 黄仁勋发表长达 123 分钟的主题演讲,发布 AI 芯片最新震圈之作——Blackwell GPU 架构,以及基于此的 B100/B200 GPU 芯片、GB200 超级芯片、DGX 超级计算机,傲视全球。

号称是 " 世界最强大的芯片 ":集成 2080 亿颗晶体管,采用定制台积电 4NP 工艺,承袭 " 拼装芯片 " 的思路,采用统一内存架构 + 双芯配置,将 2 个受光刻模板(reticle)限制的 GPU die 通过 10TB/s 芯片间 NVHyperfuse 接口连一个统一 GPU,共有192GB HBM3e 内存8TB/s 显存带宽,单卡 AI 训练算力可达20PFLOPS

跟上一代 Hopper 相比,Blackwell 因为集成了两个 die,面积变大,比 Hopper GPU 足足多了 1280 亿个晶体管。对比之下,前代 H100 只有 80GB HBM3 内存、3.35TB/s 带宽,H200 有 141GB HBM3e 内存、4.8TB/s 带宽。

第二代 Transformer 引擎:将新的微张量缩放支持和先进的动态范围管理算法与 TensorRT-LLM 和 NeMo Megatron 框架结合,使 Blackwell 具备在FP4 精度的 AI 推理能力,可支持2 倍的计算和模型规模,能在将性能和效率翻倍的同时保持混合专家模型的高精度。 ‍‍

在全新 FP4 精度下,Blackwell GPU 的 AI 性能达到 Hopper 的5 倍。英伟达并未透露其 CUDA 核心的性能,有关架构的更多细节还有待揭晓。

第五代 NVLink:为了加速万亿参数和混合专家模型的性能,新一代 NVLink 为每个 GPU 提供 1.8TB/s 双向带宽,支持多达 576 个 GPU 间的无缝高速通信,适用于复杂大语言模型。

单颗 NVLink Switch 芯片有 500 亿颗晶体管,采用台积电 4NP 工艺,以 1.8TB/s 连接 4 个 NVLink。

RAS 引擎:Blackwell GPU 包括一个确保可靠性、可用性、可维护性的专用引擎,还增加了芯片级功能,可利用基于 AI 的预防性维护来进行诊断和预测可靠性问题,最大限度延长系统的正常运行时间,提高大规模 AI 部署的弹性,一次可不间断地运行数周甚至数月,并降低运营成本。

至于功耗,B100 控制在 700W,和上代 H100 完全一致,B200 则首次达到了 1000W。英伟达宣称,Blackwell GPU 能够在 10 万亿参数的大模型上实现 AI 训练和实时大语言模型推理。

GB200 Grace Blackwell 是继 Grace Hopper 之后的新一代超级芯片 ( Superchip ) ,从单颗 GPU+ 单颗 CPU 升级为两颗 GPU 加一颗 CPU,其中 GPU 部分就是 B200,CPU 部分不变还是 Grace,彼此通过 900GB/s 的带宽实现超低功耗片间互联。

在大语言模型推理工作负载方面,GB200 超级芯片的性能对比 H100 提升了多达 30 倍。不过代价也很大,GB200 的功耗最高可达 2700W,可以使用分冷,更推荐使用液冷。

基于 GB200 超级芯片,英伟达打造了新一代的 AI 超级计算机 "DGX SuperPOD",配备 36 块超级芯片,也就是包含 36 颗 Grace CPU、72 颗 B200 GPU,彼此通过 NVLink 5 组合在一起,还有多达 240TB HBM3E。

这台 AI 超级计算机可以处理万亿参数的大模型,能保证超大规模生成式 AI 训练和推理工作负载的持续运行,FP4 精度下的性能高达 11.5EFlops ( 每秒 1150 亿亿次 ) 。

DGX SuperPOD 还具有极强的扩展性,可通过 Quantum-X800 InfiniBand 网络连接,扩展到数万颗 GB200 超级芯片,并加入 BlueField-3 DPU 数据处理单元,而每颗 GPU 都能获得 1.8TB/s 的高带宽。

第四代可扩展分层聚合和规约协议 ( SHARP ) 技术,可提供 14.4TFlops 的网络计算能力,比上代提升 4 倍。

英伟达还发布了第六代通用 AI 超级计算平台 "DGX B200",包含两颗 Intel 五代至强处理器、八颗 B200 GPU,具备 1.4TB HBM3E、64TB/s 带宽,FP4 精度性能 144PFlops ( 每秒 14 亿亿次 ) ,万亿参数模型实时推理速度提升 15 倍。

DGX B200 系统还集成八个英伟达 ConnectX-7 网卡、两个 BlueField-3 DPU 高性能网络,每个连接带宽高达 400Gb/s,可通过 Quantum-2 InfiniBand、Spectrum-X 以太网网络平台,扩展支持更高的 AI 性能。

基于 Blackwell GPU 的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI 等都会采纳。

本文来自什么值得买网站(www.smzdm.com)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 英伟达 gpu 芯片 超级计算机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论