驱动之家 21小时前
马斯克的xAI坐拥55万张英伟达GPU加速卡 利用率仅11%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 5 月 5 日消息,坐拥约 55 万块英伟达 GPU,实际算力利用率仅有 11%,这一巨大反差让马斯克旗下 xAI 近期推向舆论风口浪尖,也引发业界对其算力利用效率的广泛质疑。

据外媒《The Information》获取的 xAI 内部备忘录显示,xAI 公司总裁迈克尔 · 尼科尔斯(Michael Nicolls)向团队坦言,目前公司模型浮点运算利用率(MFU)约为 11%。

这一数字背后的含义十分直观:理论上可输出 100 份训练算力的硬件,实际仅能产出 11 份,尼科尔斯在备忘录中直白评价其 " 低得尴尬 ",并明确为团队设定了目标——未来几个月内将这一利用率拉升至 50%。

据悉,xAI 目前拥有约 55 万颗 NVIDIA GPU,涵盖 H100 和 H200 系列。尽管这些 GPU 比最新的 Blackwell 产品落后了一个世代,但如此庞大的硬件部署规模,仍给市场留下了深刻印象。

需要指出的是,11% 这个数字,并非指 89% 的 GPU 在完全闲置,而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。

与行业基准相比,xAI 的表现差距尤为明显。当前,生产级大模型训练的 MFU 通常维持在 35% 至 45% 之间,其中 Meta 和谷歌凭借长期积累的深厚软件堆栈,其 GPU 利用率分别可达约 43% 和 46%;

即便在以 " 低效 " 著称的 GPT-3 训练时期,MFU 也能稳定在 21%-26% 之间。反观 xAI 的 11%,不仅远低于当前行业主流水平,甚至不及 AI 算力发展史上的 " 古早 " 尴尬时期。

值得一提的是,坐拥顶级算力却难以发挥价值,症结不在硬件,而在软件短板。

据悉,xAI 一直照搬英伟达标准部署方案,但软件堆栈、并行策略和模型工程优化,远远跟不上硬件激进扩张速度。

具体来看,HBM 显存读取速度远慢于计算芯片,导致芯片大量时间空转等待数据;网络拓扑中的任何一处瓶颈,在数万张卡的同步要求下,都会被急剧放大。

此外,Lambda 等机构分析指出,显存压力、过度的激活重计算和张量并行带来的跨 GPU 通信开销等,都是拖累 MFU 的系统性因素。

值得注意的是,xAI 基建扩张堪称行业奇迹,其 Colossus 超算仅 122 天建成,GPU 规模短时间内极速扩容,过快的硬件铺摊,也放大了软件优化滞后的致命短板。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gpu 英伟达 马斯克 芯片 科尔
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论