快科技 5 月 5 日消息,坐拥约 55 万块英伟达 GPU,实际算力利用率仅有 11%,这一巨大反差让马斯克旗下 xAI 近期推向舆论风口浪尖,也引发业界对其算力利用效率的广泛质疑。
据外媒《The Information》获取的 xAI 内部备忘录显示,xAI 公司总裁迈克尔 · 尼科尔斯(Michael Nicolls)向团队坦言,目前公司模型浮点运算利用率(MFU)约为 11%。
这一数字背后的含义十分直观:理论上可输出 100 份训练算力的硬件,实际仅能产出 11 份,尼科尔斯在备忘录中直白评价其 " 低得尴尬 ",并明确为团队设定了目标——未来几个月内将这一利用率拉升至 50%。
据悉,xAI 目前拥有约 55 万颗 NVIDIA GPU,涵盖 H100 和 H200 系列。尽管这些 GPU 比最新的 Blackwell 产品落后了一个世代,但如此庞大的硬件部署规模,仍给市场留下了深刻印象。
需要指出的是,11% 这个数字,并非指 89% 的 GPU 在完全闲置,而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。
与行业基准相比,xAI 的表现差距尤为明显。当前,生产级大模型训练的 MFU 通常维持在 35% 至 45% 之间,其中 Meta 和谷歌凭借长期积累的深厚软件堆栈,其 GPU 利用率分别可达约 43% 和 46%;
即便在以 " 低效 " 著称的 GPT-3 训练时期,MFU 也能稳定在 21%-26% 之间。反观 xAI 的 11%,不仅远低于当前行业主流水平,甚至不及 AI 算力发展史上的 " 古早 " 尴尬时期。
值得一提的是,坐拥顶级算力却难以发挥价值,症结不在硬件,而在软件短板。
据悉,xAI 一直照搬英伟达标准部署方案,但软件堆栈、并行策略和模型工程优化,远远跟不上硬件激进扩张速度。
具体来看,HBM 显存读取速度远慢于计算芯片,导致芯片大量时间空转等待数据;网络拓扑中的任何一处瓶颈,在数万张卡的同步要求下,都会被急剧放大。
此外,Lambda 等机构分析指出,显存压力、过度的激活重计算和张量并行带来的跨 GPU 通信开销等,都是拖累 MFU 的系统性因素。
值得注意的是,xAI 基建扩张堪称行业奇迹,其 Colossus 超算仅 122 天建成,GPU 规模短时间内极速扩容,过快的硬件铺摊,也放大了软件优化滞后的致命短板。



登录后才可以发布评论哦
打开小程序可以发布评论哦