电费只占5%，谁在真正吃掉算力成本？

文 | 半导体产业纵横

近期，沐曦在行业分享中披露的一组数据中心成本分析图表，引发了业内人士的广泛关注。

这张图拆了一座 1GW 数据中心的账——总拥有成本 550 亿美元，按四年折旧摊下来，GPU 芯片占了 250 亿，供电散热 110 亿，网络 50 亿，存储 40 亿。电费呢？27.5 亿。占比 5%。

就这么一张图，把一个在圈里流传了小两年的 " 美好叙事 " 推翻了。之前总有人说，中国电价比欧美便宜，AI 时代这就是我们的本钱。大模型那么耗电，电价低就是持续优势。可沐曦这张图告诉你的却是另一回事：在超大规模算力中心的成本结构里，电费在整体 TCO 中占比很低，对总成本影响有限。真正的大头，是你根本绕不开的那块 GPU。

01 一座 550 亿美元的数据中心，钱都花哪儿了

我们先把这个账算细一点。

图里的 550 亿美元，是基于一座 1GW 的数据中心做的全周期测算，周期是四年。为什么是四年？因为 GPU 的折旧周期就这么长，甚至很多互联网大厂实际折旧周期更短——三年甚至两年半。这不是会计上的保守处理，而是技术迭代的现实：新一代 GPU 出来，老一代的单位算力成本和能效比就立刻失去竞争力。

在这 550 亿里，GPU 采购 250 亿，占比 45%。这还只是买芯片的钱。供电和散热系统 110 亿，占比 20%。这部分听着像是 " 基础设施 "，但实际上一大半成本是被 GPU 的功耗逼出来的——一颗 H100 功耗 700 瓦，B 系列下一代直奔 1000 瓦以上，几万张卡堆在一起，供电和散热系统的复杂程度远超传统数据中心。

网络 50 亿，存储 40 亿。这两块加起来 90 亿，占比 16%。超大规模集群里的网络，不是咱们家里用的路由器，而是几百公里光纤、几十层交换机构成的 " 毛细血管网 "，成本和复杂度随着 GPU 数量呈指数级增长。

四大硬件板块加起来 450 亿，占了总成本的 82%。电费呢？27.5 亿，占比 5%。其他运维成本 7.5 亿，占比不到 1.5%。

所以你看，电费便宜这件事，在这个账本里几乎可以忽略不计。你电价打五折，省下来的钱也就十几亿美元，在 550 亿的总盘子里连个水花都翻不起来。真正决定你成本高低的，是你用什么 GPU、用多少 GPU、怎么把这些 GPU 连成集群、怎么给它们供电散热——而这些，没有一样是靠 " 便宜 " 能解决的。

在 AI 算力的成本方程里，资源禀赋的权重远没有想象中那么高，真正起决定作用的，是技术和供应链。

02 GPU 价格为什么 " 降不动 "

那问题来了：GPU 能不能降下来？如果能，是不是成本问题就解决了一大半？

答案是：能降，但短期内很难降太多，而且降价的空间不在中国手里。

一颗 AI 芯片的成本构成，远比一般人想象的要复杂。先说最直观的制程。目前旗舰级 AI 芯片清一色用 4nm 或 5nm，台积电的 N4P 和 N5 工艺。流一次片的费用是多少？三到五亿美元起步。这不是设计费，是实实在在给代工厂的钱。而且这个成本是沉没成本——你流片失败了，钱就没了；流片成功了，良率爬坡还需要几个季度。

然后是 HBM（高带宽内存）。一颗 H100 配 80GB HBM3，光内存的成本就占到芯片总成本的 40% 以上。HBM 这个市场有多集中？海力士一家占了大半，三星紧随其后，美光在后面追。HBM 的产能扩张速度远远跟不上 AI 芯片的需求，所以这两年 HBM 一直在涨价。你 GPU 设计得再好，HBM 拿不到货或者拿货贵，整颗芯片的成本就降不下来。

还有先进封装。现在 AI 芯片几乎都用 CoWoS，这个技术被台积电牢牢握在手里。CoWoS 产能的紧张程度，过去两年是整个 AI 芯片供应链的最大瓶颈。台积电扩产能的速度，直接决定了英伟达、AMD、以及所有自研 AI 芯片厂商的出货节奏。

这三个环节——先进制程、HBM、先进封装——加起来，占据了 AI 芯片 BOM 成本的大头，而且每一个环节都被极少数供应商垄断。本土的 GPU 设计公司，即使设计能力追上了，也要面对同样的供应链现实。流片要找台积电或三星（或者国内尚在追赶的先进制程产线），HBM 目前基本依赖韩国厂商，先进封装也是台积电的天下。这意味着，国产 GPU 的物料成本，在一段时间内很难比英伟达低，甚至可能因为采购量小、议价能力弱而更高。

更关键的是，英伟达的 GPU 不仅仅是一颗芯片，而是一个完整的系统。从 NVLink 互联到 InfiniBand 网络，从 CUDA 软件栈到整个开发者生态，英伟达用了十几年时间构建了一套 " 软硬一体 " 的壁垒。你买英伟达的 GPU，花的钱里很大一部分买的是 " 确定性 " ——确定能用、确定性能达标、确定能快速部署。这个 " 确定性 " 的溢价，在初期是很难避免的。

03 窗口期来了，但挑战更大

那国产 GPU 怎么办？是不是就没机会了？

恰恰相反。2025 年到 2026 年这个时间窗口，可能是国产 GPU 这几年来最重要的机遇期。原因很简单：美国对华出口管制在不断加码。

这种压力，客观上给国产 GPU 打开了一个 " 被迫导入 " 的窗口。过去，国内的 AI 公司选择英伟达是出于性能和生态的最优解；现在，这个最优解正在被人为切断，国产 GPU 从 " 备选 " 变成了 " 必选 "。

我们看到的是，2025 年下半年以来，国内几家头部互联网公司和运营商都在加速部署国产算力集群。华为昇腾的 910B 和后续型号在一些场景下已经开始规模化落地；沐曦、壁仞、天数智芯等公司也在积极推动产品进入实际生产环境；百度昆仑、阿里平头哥的自研芯片也在内部大规模应用。

但挑战同样清晰。

第一是性能差距。国产 GPU 在单卡算力上正在快速追赶，但在集群效率、互联带宽、软件栈成熟度方面，与英伟达仍有差距。一个 3000 卡的国产集群，实际有效算力可能只有同样规模英伟达集群的 60%-70%。这意味着，完成同样的训练任务，需要更多的卡、更长的周期、更复杂的并行优化——这些最终都会转化为成本。

第二是软件生态的 " 隐形门槛 "。CUDA 经过十几年积累，已经形成了一个庞大的开发者生态。算法工程师从学校里学的就是 CUDA，开源社区的模型代码默认跑在 CUDA 上，各种算子库、调优工具、分布式框架都以 CUDA 为基准。国产 GPU 厂商现在都要做自己的软件栈——华为有 CANN，沐曦有 MXMACA，壁仞有 BIRENSUPA ——但生态建设需要时间和投入，而且需要用户愿意 " 多走一步 "。

第三是供应链的 " 天花板 "。国产 GPU 的制造目前主要依赖国内先进制程产线，而国内产线在产能、良率、成熟度方面与台积电还有差距。HBM 方面，国内目前还没有能够量产 HBM2E 以上产品的厂商，这一块短期内仍然依赖韩国供应商。这意味着，即使国产 GPU 设计上去了，供应链的自主可控程度仍然是有限的。

回到沐曦那张成本拆解图，其实还有一个隐藏的信息：成本优化的空间，不仅仅在 GPU 本身。供电散热占 110 亿，占比 20%。如果能把这部分压缩 30%，那就是 33 亿美元的节省——比电费总额还多。怎么做？液冷是目前最确定的路径。

传统风冷数据中心 PUE 在 1.4-1.5 之间，液冷可以做到 1.1 以下。这意味着不仅电费降低，更重要的是供配电系统和散热系统的初始投资可以大幅缩减。随着 GPU 功耗突破 1000 瓦，风冷已经接近物理极限，液冷正在从 " 可选 " 变成 " 必选 "。2025 年下半年以来，国内几大运营商和云厂商新建的智算中心，液冷方案的渗透率明显提升。这个趋势的直接结果就是，供电散热在 TCO 中的占比有望从 20% 降至 15% 甚至更低。

网络占 50 亿，占比 9%。超大规模集群中，网络成本随着 GPU 数量增加而超线性增长。为什么？因为 GPU 之间需要高速互联，而传统的以太网在解决 " 大象流 " 和 " 多打一 " 问题上的效率不高。英伟达的 NVLink 和 InfiniBand 之所以能形成壁垒，很大程度上就是因为它们在集群互联上的优势。但 2025 年，一个值得关注的趋势是，基于以太网的超大规模互联方案正在成熟，Ultra Ethernet Consortium（UEC）的推进让业界看到了降低网络成本的希望。如果这一路径走通，网络成本在 TCO 中的占比有望进一步压缩。

还有存储占 40 亿，占比 7%。AI 训练对存储的要求是海量小文件读写和高带宽吞吐，传统的分布式文件系统在这种场景下效率不高。2025 年以来，国内几家存储厂商在 AI 原生存储上的探索值得关注——通过软硬协同优化，可以在同等性能下降低存储节点的配置需求，从而压缩成本。

但这些系统级的优化，有一个共同的底层逻辑：它们都需要对 GPU 集群有深入的理解和掌控能力。不是简单地买一堆 GPU 堆在一起，而是从芯片到系统、从硬件到软件的垂直整合。

这正是为什么我们看到，无论是英伟达还是谷歌、亚马逊，都在往 " 云 - 芯 - 端 " 一体化的方向走。谷歌的 TPU 从一开始就是为自家的深度学习框架 TensorFlow 设计的；亚马逊的 Trainium 和 Inferentia 深度绑定 AWS 的服务；微软虽然大量采购英伟达的 GPU，但同时也在自研芯片，并与英伟达在系统层面深度合作。

中国的情况也类似。华为昇腾的优势之一，就是它同时拥有芯片设计能力和通信技术积累，能够在芯片互联和集群组网层面做深度优化。阿里平头哥、百度昆仑与各自的云业务深度协同，也是同样的逻辑。

04 没有捷径可走

回看那张图，它的价值其实不只是拆解了成本结构，更是拆解了一种思维惯性。

" 靠电价优势就能在 AI 算力赛道实现突破 " ——这个说法之所以有市场，是因为它符合一种 " 资源换优势 " 的旧逻辑。在过去的一些产业里，确实靠资源禀赋实现了追赶。但 AI 算力这个赛道，本质上是一个技术密集型、资本密集型、系统密集型的产业，资源禀赋的权重被大幅稀释了。

真正的竞争优势来自哪里？来自对 GPU 核心技术的突破能力，来自对先进封装和 HBM 等关键环节的供应链掌控力，来自软件生态的长期积累，来自系统级架构的创新能力，也来自商业模式和运营效率的持续进化。

这些，没有一样是容易的，也没有一样是靠 " 便宜 " 能换来的。

过去两三年，国内智算中心建设发展迅速，不少项目在投资思路上延续了传统 IDC 的模式——以园区建设、硬件部署、算力租赁为核心。但 AI 算力与传统 IDC 的商业逻辑存在明显差异：GPU 硬件迭代快、折旧周期短，项目收益高度依赖算力利用率。如果仅将 GPU 作为标准化租赁资源，缺乏底层算法优化、集群调度与运营能力，高昂的硬件投入可能难以有效转化为持续稳定的收益，也会带来较大的资产压力。

好在，产业界正在回归理性。2025 年下半年以来，我们看到的是，无论是互联网大厂还是运营商，在算力投资上都更加务实——不再是单纯的 " 堆卡 "，而是更关注实际可用的有效算力，更关注单位算力的成本，更关注软硬协同的优化空间。

没有捷径可走。这句话听起来老套，但在 AI 算力这个赛道上，它依然是残酷而真实的底层逻辑。

宙世代

一起剪