半导体产业纵横 2小时前
电费只占5%,谁在真正吃掉算力成本?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

文 | 半导体产业纵横

近期,沐曦在行业分享中披露的一组数据中心成本分析图表,引发了业内人士的广泛关注。

这张图拆了一座 1GW 数据中心的账——总拥有成本 550 亿美元,按四年折旧摊下来,GPU 芯片占了 250 亿,供电散热 110 亿,网络 50 亿,存储 40 亿。电费呢?27.5 亿。占比 5%。

就这么一张图,把一个在圈里流传了小两年的 " 美好叙事 " 推翻了。之前总有人说,中国电价比欧美便宜,AI 时代这就是我们的本钱。大模型那么耗电,电价低就是持续优势。可沐曦这张图告诉你的却是另一回事:在超大规模算力中心的成本结构里,电费在整体 TCO 中占比很低,对总成本影响有限。真正的大头,是你根本绕不开的那块 GPU。

01 一座 550 亿美元的数据中心,钱都花哪儿了

我们先把这个账算细一点。

图里的 550 亿美元,是基于一座 1GW 的数据中心做的全周期测算,周期是四年。为什么是四年?因为 GPU 的折旧周期就这么长,甚至很多互联网大厂实际折旧周期更短——三年甚至两年半。这不是会计上的保守处理,而是技术迭代的现实:新一代 GPU 出来,老一代的单位算力成本和能效比就立刻失去竞争力。

在这 550 亿里,GPU 采购 250 亿,占比 45%。这还只是买芯片的钱。供电和散热系统 110 亿,占比 20%。这部分听着像是 " 基础设施 ",但实际上一大半成本是被 GPU 的功耗逼出来的——一颗 H100 功耗 700 瓦,B 系列下一代直奔 1000 瓦以上,几万张卡堆在一起,供电和散热系统的复杂程度远超传统数据中心。

网络 50 亿,存储 40 亿。这两块加起来 90 亿,占比 16%。超大规模集群里的网络,不是咱们家里用的路由器,而是几百公里光纤、几十层交换机构成的 " 毛细血管网 ",成本和复杂度随着 GPU 数量呈指数级增长。

四大硬件板块加起来 450 亿占了总成本的 82%电费呢?27.5 亿,占比 5%。其他运维成本 7.5 亿,占比不到 1.5%。

所以你看,电费便宜这件事,在这个账本里几乎可以忽略不计。你电价打五折,省下来的钱也就十几亿美元,在 550 亿的总盘子里连个水花都翻不起来。真正决定你成本高低的,是你用什么 GPU、用多少 GPU、怎么把这些 GPU 连成集群、怎么给它们供电散热——而这些,没有一样是靠 " 便宜 " 能解决的。

在 AI 算力的成本方程里,资源禀赋的权重远没有想象中那么高,真正起决定作用的,是技术和供应链。

02 GPU 价格为什么 " 降不动 "

那问题来了:GPU 能不能降下来?如果能,是不是成本问题就解决了一大半?

答案是:能降,但短期内很难降太多,而且降价的空间不在中国手里。

一颗 AI 芯片的成本构成,远比一般人想象的要复杂。先说最直观的制程。目前旗舰级 AI 芯片清一色用 4nm 或 5nm,台积电的 N4P 和 N5 工艺。流一次片的费用是多少?三到五亿美元起步。这不是设计费,是实实在在给代工厂的钱。而且这个成本是沉没成本——你流片失败了,钱就没了;流片成功了,良率爬坡还需要几个季度。

然后是 HBM(高带宽内存)。一颗 H100 配 80GB HBM3,光内存的成本就占到芯片总成本的 40% 以上。HBM 这个市场有多集中?海力士一家占了大半,三星紧随其后,美光在后面追。HBM 的产能扩张速度远远跟不上 AI 芯片的需求,所以这两年 HBM 一直在涨价。你 GPU 设计得再好,HBM 拿不到货或者拿货贵,整颗芯片的成本就降不下来。

还有先进封装。现在 AI 芯片几乎都用 CoWoS,这个技术被台积电牢牢握在手里。CoWoS 产能的紧张程度,过去两年是整个 AI 芯片供应链的最大瓶颈。台积电扩产能的速度,直接决定了英伟达、AMD、以及所有自研 AI 芯片厂商的出货节奏。

这三个环节——先进制程、HBM、先进封装——加起来,占据了 AI 芯片 BOM 成本的大头,而且每一个环节都被极少数供应商垄断。本土的 GPU 设计公司,即使设计能力追上了,也要面对同样的供应链现实。流片要找台积电或三星(或者国内尚在追赶的先进制程产线),HBM 目前基本依赖韩国厂商,先进封装也是台积电的天下。这意味着,国产 GPU 的物料成本,在一段时间内很难比英伟达低,甚至可能因为采购量小、议价能力弱而更高。

更关键的是,英伟达的 GPU 不仅仅是一颗芯片,而是一个完整的系统。从 NVLink 互联到 InfiniBand 网络,从 CUDA 软件栈到整个开发者生态,英伟达用了十几年时间构建了一套 " 软硬一体 " 的壁垒。你买英伟达的 GPU,花的钱里很大一部分买的是 " 确定性 " ——确定能用、确定性能达标、确定能快速部署。这个 " 确定性 " 的溢价,在初期是很难避免的。

03 窗口期来了,但挑战更大

那国产 GPU 怎么办?是不是就没机会了?

恰恰相反。2025 年到 2026 年这个时间窗口,可能是国产 GPU 这几年来最重要的机遇期。原因很简单:美国对华出口管制在不断加码。

这种压力,客观上给国产 GPU 打开了一个 " 被迫导入 " 的窗口。过去,国内的 AI 公司选择英伟达是出于性能和生态的最优解;现在,这个最优解正在被人为切断,国产 GPU 从 " 备选 " 变成了 " 必选 "。

我们看到的是,2025 年下半年以来,国内几家头部互联网公司和运营商都在加速部署国产算力集群。华为昇腾的 910B 和后续型号在一些场景下已经开始规模化落地;沐曦、壁仞、天数智芯等公司也在积极推动产品进入实际生产环境;百度昆仑、阿里平头哥的自研芯片也在内部大规模应用。

但挑战同样清晰。

第一是性能差距。国产 GPU 在单卡算力上正在快速追赶,但在集群效率、互联带宽、软件栈成熟度方面,与英伟达仍有差距。一个 3000 卡的国产集群,实际有效算力可能只有同样规模英伟达集群的 60%-70%。这意味着,完成同样的训练任务,需要更多的卡、更长的周期、更复杂的并行优化——这些最终都会转化为成本。

第二是软件生态的 " 隐形门槛 "。CUDA 经过十几年积累,已经形成了一个庞大的开发者生态。算法工程师从学校里学的就是 CUDA,开源社区的模型代码默认跑在 CUDA 上,各种算子库、调优工具、分布式框架都以 CUDA 为基准。国产 GPU 厂商现在都要做自己的软件栈——华为有 CANN,沐曦有 MXMACA,壁仞有 BIRENSUPA ——但生态建设需要时间和投入,而且需要用户愿意 " 多走一步 "。

第三是供应链的 " 天花板 "。国产 GPU 的制造目前主要依赖国内先进制程产线,而国内产线在产能、良率、成熟度方面与台积电还有差距。HBM 方面,国内目前还没有能够量产 HBM2E 以上产品的厂商,这一块短期内仍然依赖韩国供应商。这意味着,即使国产 GPU 设计上去了,供应链的自主可控程度仍然是有限的。

回到沐曦那张成本拆解图,其实还有一个隐藏的信息:成本优化的空间,不仅仅在 GPU 本身。供电散热占 110 亿,占比 20%。如果能把这部分压缩 30%,那就是 33 亿美元的节省——比电费总额还多。怎么做?液冷是目前最确定的路径。

传统风冷数据中心 PUE 在 1.4-1.5 之间,液冷可以做到 1.1 以下。这意味着不仅电费降低,更重要的是供配电系统和散热系统的初始投资可以大幅缩减。随着 GPU 功耗突破 1000 瓦,风冷已经接近物理极限,液冷正在从 " 可选 " 变成 " 必选 "。2025 年下半年以来,国内几大运营商和云厂商新建的智算中心,液冷方案的渗透率明显提升。这个趋势的直接结果就是,供电散热在 TCO 中的占比有望从 20% 降至 15% 甚至更低。

网络占 50 亿,占比 9%。超大规模集群中,网络成本随着 GPU 数量增加而超线性增长。为什么?因为 GPU 之间需要高速互联,而传统的以太网在解决 " 大象流 " 和 " 多打一 " 问题上的效率不高。英伟达的 NVLink 和 InfiniBand 之所以能形成壁垒,很大程度上就是因为它们在集群互联上的优势。但 2025 年,一个值得关注的趋势是,基于以太网的超大规模互联方案正在成熟,Ultra Ethernet Consortium(UEC)的推进让业界看到了降低网络成本的希望。如果这一路径走通,网络成本在 TCO 中的占比有望进一步压缩。

还有存储占 40 亿,占比 7%。AI 训练对存储的要求是海量小文件读写和高带宽吞吐,传统的分布式文件系统在这种场景下效率不高。2025 年以来,国内几家存储厂商在 AI 原生存储上的探索值得关注——通过软硬协同优化,可以在同等性能下降低存储节点的配置需求,从而压缩成本。

但这些系统级的优化,有一个共同的底层逻辑:它们都需要对 GPU 集群有深入的理解和掌控能力。不是简单地买一堆 GPU 堆在一起,而是从芯片到系统、从硬件到软件的垂直整合。

这正是为什么我们看到,无论是英伟达还是谷歌、亚马逊,都在往 " 云 - 芯 - 端 " 一体化的方向走。谷歌的 TPU 从一开始就是为自家的深度学习框架 TensorFlow 设计的;亚马逊的 Trainium 和 Inferentia 深度绑定 AWS 的服务;微软虽然大量采购英伟达的 GPU,但同时也在自研芯片,并与英伟达在系统层面深度合作。

中国的情况也类似。华为昇腾的优势之一,就是它同时拥有芯片设计能力和通信技术积累,能够在芯片互联和集群组网层面做深度优化。阿里平头哥、百度昆仑与各自的云业务深度协同,也是同样的逻辑。

04 没有捷径可走

回看那张图,它的价值其实不只是拆解了成本结构,更是拆解了一种思维惯性。

" 靠电价优势就能在 AI 算力赛道实现突破 " ——这个说法之所以有市场,是因为它符合一种 " 资源换优势 " 的旧逻辑。在过去的一些产业里,确实靠资源禀赋实现了追赶。但 AI 算力这个赛道,本质上是一个技术密集型、资本密集型、系统密集型的产业,资源禀赋的权重被大幅稀释了。

真正的竞争优势来自哪里?来自对 GPU 核心技术的突破能力,来自对先进封装和 HBM 等关键环节的供应链掌控力,来自软件生态的长期积累,来自系统级架构的创新能力,也来自商业模式和运营效率的持续进化。

这些,没有一样是容易的,也没有一样是靠 " 便宜 " 能换来的。

过去两三年,国内智算中心建设发展迅速,不少项目在投资思路上延续了传统 IDC 的模式——以园区建设、硬件部署、算力租赁为核心。但 AI 算力与传统 IDC 的商业逻辑存在明显差异:GPU 硬件迭代快、折旧周期短,项目收益高度依赖算力利用率。如果仅将 GPU 作为标准化租赁资源,缺乏底层算法优化、集群调度与运营能力,高昂的硬件投入可能难以有效转化为持续稳定的收益,也会带来较大的资产压力。

好在,产业界正在回归理性。2025 年下半年以来,我们看到的是,无论是互联网大厂还是运营商,在算力投资上都更加务实——不再是单纯的 " 堆卡 ",而是更关注实际可用的有效算力,更关注单位算力的成本,更关注软硬协同的优化空间。

没有捷径可走。这句话听起来老套,但在 AI 算力这个赛道上,它依然是残酷而真实的底层逻辑。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论