驱动之家 08-29
与国产AI分裂 NVIDIA最强AI显卡GB300强化FP4:能效暴增50倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 8 月 29 日消息,NVIDIA 日前发布了 2 季度财报,业绩依然暴涨,新一代 AI 显卡 Blackwell 系列中的最强者 GB300 今年 4 季度也会正式上市,下下代的 Rubin 有 6 款产品正在推进。

GB300 的详细规格可以参考之前的文章,这里要来看一个可能影响中美 AI 技术的变化,那就是在算法选择上,国产的 AI 跟 NVIDIA 已经有了分裂,前者选择的是 UE8M0 FP8,而在 Blackwell 上 NVIDIA 强化的是 NVFP4 标准。

UE8M0 FP8 这几天引爆了国产算力行业,这是 Deepseek 3.1 正式问世时 DS 官方公布的消息,称 UE8M0 FP8 已经全面适配即将发布的新一代国产 AI 芯片。

虽然没有特指哪家厂商,但是华为昇腾、摩尔线程、砺算科技、芯原科技、海光科技等厂商的新一代算力芯片几乎都会支持这个标准。

相比之前国产 AI 算力芯片主要采用 FP16+INT8 的算法标准,UE8M0 FP8 带来的好处很多,性能是之前的 2-3 倍,并且大幅降低显存压力,还能降低功耗,具体就要看各大厂商的实现了。

那作为 AI 一哥的 NVIDIA 呢?相比国内 AI 领域率先有 DS 这种模型厂商来协同算法标准的情况,NVIDIA 这几年一直以算力芯片上游厂商的身份来推动标准,FP64、FP32、FP16、INT8、FP8 等标准都是支持的,而在 Blackwell 架构上,NVIDIA 也支持 FP4、MXFP4 这两种标准,但重点推的是 NVFP4,它跟 E2M1 FP4 结构差不多,但精度几乎没有多少损失。

NVFP4 标准的优点有哪些?首先来看性能上的,GB300 的稠密性能大幅提升了 50%而来到 15PFlops,要知道它跟 GB200 基本架构可没什么变化。

50% 的性能提升或许不够惊人,那再来看看精度变化。

与 FP8 的基准相比,NVFP4 在 DS 0528 的模型精度上几乎持平,大部分落后不到 1 个百分点,AIME 2024 中甚至还领先了 2 个百分点。

在内存使用上,NVFP4 与 FP16 相比占用减少了 3.5 倍,相比 FP8 也减少了 1.8 倍,而 GB300 显卡 HBM 容量也从 GB200 的 186GB 提升到了 288GB,同样的 NVL72 机柜中,系统的总内存容量可达 40TB,能支持 3000 亿参数的大模型。

第三个优势则是在能效上,GB300 在 NVFP4 的支持下,每 Token 的能量消耗只有 0.2J,GB200 则是 0.4J,H100 架构的 H100 是 10J,相比之下提升了 50 倍的能效。

简单来说,NVIDIA 这次主导的 NVFP4 算法标准性能提升了 50%,精度比 FP8 几乎没有损失,内存占用大幅减少 2-3 倍,能效则是 50 倍提升。

考虑到 NVIDIA 的影响力,NVFP4 显然会成为前沿大模型广泛使用的算法标准,国内大厂应该也会大规模使用。

但在国产 AI 芯片上,UE8M0 FP8 也已经成为新一代 AI 芯片的标准,尽管它还不能超越 NVIDIA 的 CUDA 生态,但是这显然也是国产 AI 软件及硬件领域的一次重大协同,同样有机会杀出重围,或许也能打造出自己的优势范围呢,一切都有可能。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

nvidia ai 华为 芯片 ds
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论