直面派 8小时前
谷歌为发电都上天了,但AI真的缺电吗?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

都说 AI 的尽头是能源,微软 CEO 纳德拉在最近的采访中侧面印证了这个观点。" 因为缺电,微软很多 GPU 都躺在库房里不工作。" 纳德拉如是说道。

谷歌最近搞出了 TPU 送上太空,用太阳来给机器发电的奇招,仿佛就是纳德拉这句话的 " 回声 "。

但奇怪的是,纳德拉这句话看起来利好能源行业,但无论是大 A 还是纳斯达克,其能源板块都没有因为纳德拉的话而涨幅。从 11 月初至发稿,大 A 涨幅 0%,纳斯达克能源板最大一家公司的涨幅是 0.77%。

一方面硅谷巨头连呼缺电,甚至搞出了 " 上天 " 这样的解决方案,但另一方面,如此明确的信号,市场却置若罔闻,迟迟没有回应。

这就不禁让人产生了一个疑问:AI 产业真的缺电吗?

OpenAI CEO 山姆 . 奥特曼的观点是:是,也不是。

说是,是因为现在确实存在缺电的现象;说不是,是因为问题的本质其实是 AI 过剩,虽然他不清楚具体会是多少年,但是最多不超过 6 年,AI 就会超出人们的需求,也会导致 AI 对电的需求降低。

也就是说,AI 产业短期断电,但长期来看,随着 AI 能耗的降低,缺电问题就会得到解决。

01

谷歌公司在 2025 年 11 月初公布了一个名为 " 捕日者计划 "(Project Suncatcher)的项目,该计划的运作方式是把 TPU 芯片送入太空,用太阳能为其发电。

太阳每秒钟向外辐射的能量,大约是 3.86 乘以 10 的 26 次方瓦,这一数值是当前人类社会全球总发电量的一百万亿倍以上。而部署在晨昏太阳同步轨道上的卫星,其太阳能板几乎可以不间断地接收到光照,一年下来所接收的能量是在地球中纬度地区同样面积太阳能板接收能量的 8 倍。

捕日者计划与卫星公司 Planet Labs 合作,在距离地面 650 公里的低地球轨道上,部署一个由 81 颗卫星构成的 AI 计算集群。按照设计,这些卫星将在半径 1 公里的空域内协同工作,彼此之间的距离维持在 100 到 200 米。该计划预计在 2027 年初发射首批两颗试验卫星,以验证方案的可行性。

尽管谷歌曾经表示,其在一年内已将旗下 Gemini 模型的单次查询能耗降低了 33 倍,但很显然,谷歌仍然需要电力。

在太空中利用太阳能发电并非新的概念,但长期以来受困于一个核心难题,那就是如何高效、安全地将产生的电力传输回地面。无论是采用微波束还是激光束,能量在传输过程中的损耗和对地面环境的潜在影响都使其难以大规模实施。

" 捕日者计划 " 的思路则选择绕开了这个环节。它并不打算将数据传回地球,而是在太空中直接利用这些电力进行计算,只将计算完成后的结果传回地面。

地面上的 TPU 超级计算机集群,使用的是定制化的低延迟光学芯片互连技术,每个芯片的吞 t 量能达到每秒数百吉比特(Gbps)。

而目前商用的卫星间光通信链路,数据速率通常只在 1 到 100Gbps 的范围内,这远不能满足 AI 计算集群内部大规模数据交换的需求。谷歌提出的解决方案是采用密集波分复用技术,理论上可以让每条卫星间链路的总带宽达到每秒约 10 太比特(Tbps)。

谷歌对外解释了很多关于 " 捕日者计划 " 的难题以及解决办法,比如如何控制集群编队、如何抵抗辐射等等。

但谷歌并没有解释该如何散热。

这是一个非常棘手的物理问题,真空中是没有空气对流的,热量只能通过辐射方式散发出去。谷歌曾经在一篇论文中提到,需要使用先进的热界面材料和热传输机制,并且最好是被动式的以保证可靠性,从而将芯片产生的热量高效传导至专用的散热器表面进行辐射。关于这部分的技术细节,论文中并未提供太多信息。

事实上,将数据中心送入太空的想法并不只有谷歌一家。就在谷歌公布计划的前几天,一家名为 Starcloud 的初创公司已经发射了搭载英伟达 H100 芯片的卫星,并宣称要建设一个拥有 5 吉瓦功率的天基数据中心。埃隆 · 马斯克也曾表示 SpaceX" 将会做 " 太空数据中心。

2025 年 5 月,中国的之江实验室与国星宇航合作的 " 三体计算星座 " 首批 12 颗计算卫星已成功发射并组网。

所以在送 AI 去太空这个问题上,虽然听起来很新颖,但是大家的目的都是一样的,想用电,那就去那里上面拿,地面上电不够你们用的。

02

造成 AI 对电饥渴这一局面的,主要归罪于英伟达。这家公司的 GPU 产品,从 Ampere 架构到 Blackwell 架构,仅仅过了 4 年,功耗就增长了数倍。

一个使用 Hopper 架构 GPU 的服务器机架,额定功率约为 10 千瓦;而到了 Blackwell 架构,由于 GPU 数量的增加,机架功率接近 120 千瓦。

而且,由于现在 GPU 的单位都是万。数万块 GPU 相互交流的时候还要借助英伟达的互联技术 NvLink 技术以提升交流效率。而每一条 NvLink 的链路功耗就有 4 到 6 瓦,两块 GPU 之间有 18 条链路,这些 NvLink 又要集中到 NvSwitch 上以实现非阻塞连接,而一个 NvSwitch 的功耗是 50 到 70 瓦。

若一个 GPU 集群拥有 1 万块 H100,那就需要 157 个 NvSwitch 和 9 万条 NvLink 链路。那其公号大概就是要 730 千瓦到 1100 千瓦之间。

还没完,GPU 在散热方面也是耗电大户。最常见的 8 卡 H100 服务器,如果采用的是风冷系统,功耗就要达到 150 瓦,所以一个万卡集群,光是散热就需要 187 千瓦。

当前,大型科技公司之间的竞争,其衡量标准已经从传统的计算能力单位,转向了能源消耗单位 " 吉瓦 "(GW)。像 OpenAI 和 Meta 这样的公司,都计划在未来几年内增加超过 10 吉瓦的计算能力。

作为一个参照,AI 行业消耗 1 吉瓦的电力,足以供应大约 100 万个美国家庭的日常用电。国际能源署在 2025 年的一份报告中估计,到 2030 年,人工智能领域的能源消耗将翻一番,其增长速度几乎是电网自身增长速度的四倍。

高盛预测,到 2027 年全球数据中心电力需求预计将增长 50%,达到 92 吉瓦。而美国数据中心电力需求在总电力需求中的占比,将从 2023 年的 4%,增长到 2030 年的 10%。此外,高盛还指出一些大型数据中心园区的电力接入请求,单个项目确实能达到 300 兆瓦到数吉瓦的级别。

但是,有意思的来了。

NextEra Energy 是北美最大的可再生能源公司,而跟踪美国公用事业板块表现的代表性行业 ETF 名为 XLU。过去 52 周,NextEra 的涨幅为 11.62%,ETF XLU 的涨幅为 14.82%,但同期标普 500 指数的涨幅却达到了 19.89%。

如果人工智能行业真的面临严峻的电力短缺,那么作为电力供应方的能源公司和公用事业板块,理应获得超额的市场回报,而不是连大盘都跑不过。

对此,纳德拉讲出了一个关键线索。他说 " 电网接入审批需要 5 年 ",而且 " 输电线路建设则需要 10 到 17 年 "。

而与此同时,GPU 的采购周期是以季度来计量的,数据中心的建设周期通常为 1 到 2 年,人工智能需求的爆发速度则是以季度为单位在变化。

这些时间尺度之间存在着数量级的差异,由此产生的时间错配,正是纳德拉说 AI 缺电的的本质所在。

而且对于纳德来来说还有一个当下没办法解决的烦恼。2020 年微软曾宣布,在保护生态系统的同时 " 实现碳负排放、用水净增并实现零废弃 "。

然而现实情况是,目前微软数据中心所使用的电力中,近 60% 仍然来自包括天然气在内的化石燃料。这所产生的年度二氧化碳排放量,大约相当于 54000 户普通美国家庭的排放总和。

另一方面,国际能源署在 2025 年 10 月发布的《可再生能源报告》中指出,全球发电能力的增长速度,可能会超过包括人工智能在内的新增电力需求。

报告提出,在 2025 至 2030 年这五年期间,全球可再生能源装机容量将增加 4600 吉瓦,这一增量的规模,大致相当于中国、欧盟和日本三个经济体当前装机容量的总和。更进一步,报告预计这五年的新增装机容量,将是之前五年增量的两倍。

这里要特别要提到的就是核能。核能是唯一能够提供稳定、大规模、低碳电力的选择。传统大型核电站的问题是建设周期长、成本高、风险大。但小型模块化反应堆 ( SMR ) 正在改变这个局面。SMR 可以像制造飞机或汽车一样在工厂里批量生产标准化模块,然后通过铁路或公路运输到现场进行组装,类似于 " 乐高积木 " 式的建造方式。

SMR 的单机容量只有 50-300 兆瓦,比传统核电站的 1000-1600 兆瓦小得多,但这恰恰是它的优势。更小的规模意味着更短的建设周期、更低的初始投资、更灵活的选址。SMR 可以在工厂里批量生产,然后运到现场组装,大幅降低成本和风险。

SMR 是当下最火最潮的发电方式。谷歌曾与 Kairos Power 签署协议,购买了 500 兆瓦的 SMR 核电,这是科技公司首次直接投资 SMR 技术。微软则是在 2024 年 1 月,聘请了曾在 Ultra Safe Nuclear Corporation(USNC)的核战略与项目总监,来担任微软核技术总监。其目的就是开发 SMR 以及更小的微型模块化反应堆(MMR)。

换句话说,微软缺的不是电,而是时间。

03

相较于能源方面,减少 AI 自身的功耗也是一条重要的发展方向。

奥特曼的观点是,每单位智能的成本每年下降 40 倍,很可能我们几年后就不需要这么多基础设施了。而且如果突破持续,个人级通用人工智能可能在笔记本上运行,进一步减少发电需求。

奥特曼曾写过一篇文章,以自家产品为例,解释过这个问题。文章中写到,从 2023 年初的 GPT-4 模型到 2024 年中的 GPT-4o 模型,仅仅过了一年,每个 token 的成本,降低了大约 150 倍。在算力不变的前提下,同样的业务,在 AI 不同的发展阶段,所需要消耗的电力就会减少。

他说这种幅度的价格下降,如果仅仅依靠硬件成本的线性降低是无法实现的,其背后必然包含了算法优化、模型架构改进和推理引擎效率提升等多方面的综合作用。

斯坦福大学 2025 年人工智能指数报告 ( HAI)中证实了这个说法,报告中写到:在 18 个月内 , 达到 GPT-3.5 水平 ( MMLU 准确率 64.8% ) 的 AI 模型调用成本,从 2022 年 11 月的 20 美元 / 百万 token 骤降至 2024 年 10 月的 0.07 美元 / 百万 token,成本下降了 280 倍。

在硬件方面,GPU 现在增加了两个新的能效衡量单位 :TOPS/W ( 每瓦万亿次运算 ) 和 FLOPS per Watt ( 每瓦浮点运算次数 ) 。这样的单位,是为了能够更直观地看到能效方面的突破。

比如 Meta 发布的第五代 AI 训练芯片 Athena X1,在低精度的前提下,能效比达到了 32TOPS/W,较前代提升 200%,空载功耗下降 87%。英伟达 H100 哪怕在 FP8 这样低精度的范围里,其能效比也只有 5.7TFLOPS/W。

不过对于一些高精度的训练任务,仍然需要使用 H100,这也是为什么 Meta 要大规模采购几十万块英伟达的 GPU。

Epoch AI 的研究数据显示,机器学习硬件的能效正以每年 40% 的速度提升,每 2 年翻一番。新一代 AI 芯片的能效提升显著。

英伟达的 H200 GPU 相比上一代 H100,能效提升了 1.4 倍。看起来还有很大的提升空间。

从宏观角度看,数据中心本身的能效才是最值得关注的数字。通常使用 PUE ( 能源使用效率 ) 来衡量数据中心的能耗情况。

PUE 的理想值是 1.0,意味着所有电力都用于计算,没有浪费在冷却和其他辅助系统上。十年前,数据中心的平均 PUE 是 2.5,现在是 1.5,谷歌的最新数据中心已经降至 1.1。这意味着同样的计算任务,现在只需要当年一半的电力。液冷技术、免费冷却、AI 驱动的能源管理系统正在继续推低这个数字。

但无论哪种结局,能源行业都因为 AI 而完成了重塑,即便未来 AI 的需求减少,能源行业的兴盛也会推动其他行业发展。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 谷歌 卫星 ceo 微软
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论