驱动之家 03-19
黄仁勋抛出2700W功耗的真核弹!还有240TB显存的AI超级计算机
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 3 月 19 日消息,今天凌晨,黄仁勋正式拿出了新一代 Blackwell GPU 架构,以及基于此的 B100/B200 GPU 芯片、GB200 超级芯片、DGX 超级计算机,再次将 " 战术核弹 " 提升了全新的境界,傲视全球。

Blackwell B200 GPU 首次采用了 chiplet 晶粒封装,包含两颗 B100,而 B200 之间再通过带宽翻倍达 1.8TB/s 的第五代 NVLink 5 总线互连,最多可连接 576 块。

B100 采用专门定制的台积电 4NP 工艺制造 ( H100/RTX 40 4N 工艺的增强版 ) ,已经达到双倍光刻极限尺寸,彼此通过 10TB/s 带宽的片间互联带宽,连接成一块统一的 B200 GPU。

B100 集成多达 1040 亿个晶体管,比上代 H100 800 亿个增加了足足 30%,B200 整体就是 2080 亿个晶体管。

核心面积未公布,考虑到工艺极限应该不会比 814 平方毫米的 H100 大太多。

CUDA 核心数量也没说,但肯定会大大超过 H100 16896 个,不知道能不能突破 2 万个?

每颗 B100 连接四颗 24GB HBM3E 显存 / 内存,等效频率 8GHz,位宽 4096-bit,带宽达 4TB/s。

如此一来,B200 就有多达 192GB HBM3E,总位宽 8096-bit,总带宽 8TB/s,相比 H100 分别增加 1.4 倍、58%、1.4 倍。

性能方面,B200 新增支持 FP4 Tensor 数据格式,性能达到 9PFlops ( 每秒 9 千万亿次 ) ,INT/FP8、FP16、TF32 Tensor 性能分别达到 4.5、2.25、1.1PFlops,分别提升 1.2 倍、1.3 倍、1.3 倍,但是 FP64 Tensor 性能反而下降了 40% ( 依赖 GB200 ) ,FP32、FP64 Vector 性能则未公布。

Blackwell GPU 还支持第二代 Transformer 引擎,支持全新的微张量缩放,在搭配 TensorRT-LLM、NeMo Megatron 框架中的先进动态范围管理算法,从而在新型 4 位浮点 AI 推理能力下实现算力和模型大小的翻倍。

其他还有 RAS 可靠性专用引擎、安全 AI、解压缩引擎等。

至于功耗,B100 控制在 700W,和上代 H100 完全一致,B200 则首次达到了 1000W。

NVIDIA 宣称,Blackwell GPU 能够在 10 万亿参数的大模型上实现 AI 训练和实时大语言模型推理。

GB200 Grace Blackwell 是继 Grace Hopper 之后的新一代超级芯片 ( Superchip ) ,从单颗 GPU+单颗 CPU 升级为两颗 GPU 加一颗 CPU,其中 GPU 部分就是 B200,CPU 部分不变还是 Grace,彼此通过 900GB/s 的带宽实现超低功耗片间互联。

在大语言模型推理工作负载方面,GB200 超级芯片的性能对比 H100 提升了多达 30 倍。

不过代价也很大,GB200 的功耗最高可达 2700W,可以使用分冷,更推荐使用液冷。

基于 GB200 超级芯片,NVIDIA 打造了新一代的 AI 超级计算机 "DGX SuperPOD",配备 36 块超级芯片,也就是包含 36 颗 Grace CPU、72 颗 B200 GPU,彼此通过 NVLink 5 组合在一起,还有多达 240TB HBM3E。

这台 AI 超级计算机可以处理万亿参数的大模型,能保证超大规模生成式 AI 训练和推理工作负载的持续运行,FP4 精度下的性能高达 11.5EFlops ( 每秒 1150 亿亿次 ) 。

DGX SuperPOD 还具有极强的扩展性,可通过 Quantum-X800 InfiniBand 网络连接,扩展到数万颗 GB200 超级芯片,并加入 BlueField-3 DPU 数据处理单元,而每颗 GPU 都能获得 1.8TB/s 的高带宽。

第四代可扩展分层聚合和规约协议 ( SHARP ) 技术,可提供 14.4TFlops 的网络计算能力,比上代提升 4 倍。

此外,NVIDIA 还发布了第六代通用 AI 超级计算平台 "DGX B200",包含两颗 Intel 五代至强处理器、八颗 B200 GPU,具备 1.4TB HBM3E、64TB/s 带宽,FP4 精度性能 144PFlops ( 每秒 14 亿亿次 ) ,万亿参数模型实时推理速度提升 15 倍。

DGX B200 系统还集成八个 NVIDIA ConnectX-7 网卡、两个 BlueField-3 DPU 高性能网络,每个连接带宽高达 400Gb/s,可通过 Quantum-2 InfiniBand、Spectrum?-X 以太网网络平台,扩展支持更高的 AI 性能。

基于 Blackwell GPU 的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI 等都会采纳。

亚马逊云、谷歌云、微软 Azeure、甲骨文云将是首批提供 Blackwell GPU 驱动实例的云服务提供商,NVIDIA 云合作伙伴计划的中的 Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda 也将提供上述服务。

Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国 / 英国 / 澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group 旗下的 Taiga Cloud、Yotta Data Services 旗下的 Shakti Cloud、YTL Power International 等主权 AI 云,也将提供基于 Blackwell 架构的云服务和基础设施。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai gpu 超级计算机 黄仁勋 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论