谷歌技术报告披露大模型能耗：响应一次相当于微波炉叮一秒

大模型耗电惊人，舆论一浪高过一浪。

现在，谷歌用硬核数据强势还击。

一次 Gemini 查询仅能耗 0.24wh，相当于微波炉运行 1 秒，排放 0.03 g CO ₂ e，甚至比人放一次屁还少，同时消耗约 5 滴水。

（文中数据均表示中位数）

谷歌首席科学家 Jeff Dean 公开表示：

这个数值明显低于公众普遍预期的水平。

并且像谷歌这样的大模型厂商，一直专注研究如何降低 AI 消耗。

一年间，通过模型优化和额外清洁能源的使用，Gemini 的能耗降至原来的 1/33，碳排放降至 1/44，同时提供了更高质量的响应。

下面让我们一起看看谷歌是如何衡量和减少 AI 能源消耗的？

如何衡量 AI 消耗能源

谷歌首先指出，目前许多关于 AI 能源消耗的计算反映的都是理论效率，而非大规模运行下的实际效率。

若 Gemini 只考虑 TPU 和 GPU 的消耗，一次查询只需消耗 0.10wh，排放 0.02 g CO ₂ e，耗水量约 0.12ml。

但这种计算方式仅考虑了机器在运行中的能耗，而忽略了一些关键因素。

与此同时，Jeff Dean 也表示：

人们都在思考 AI 是否会消耗大量能源？它是否会通过碳排放来伤害地球？

所以，谷歌针对 AI 服务时的实际情况，开发了一套更为全面的方法来计算能源消耗，包括以下几个部分：

全系统动态功率

这不仅包括主 AI 模型在计算过程中使用的能源和水，还考虑了大规模运行下实际的芯片利用率，而该利用率往往远低于理论最大值。

空闲计算机

为确保高可用性和可靠性，生产系统需要一定程度的预置容量，该容量处于空闲状态，但随时可以处理流量高峰或故障转移。这些闲置芯片消耗的能量必须计入总能源足迹。

CPU 和内存

AI 模型的运行不仅依赖 TPU 和 GPU 等机器学习加速器，主机的 CPU 和内存同样在提供服务和消耗能源方面起着关键作用。

数据中心开销

运行 AI 的信息技术设备所消耗的能源仅占整体能耗的一部分。支撑这些计算的基础设施，如冷却系统、配电系统以及其他数据中心开销同样会消耗能源。这部分开销能源通常用电力使用效率（PUE）指标来衡量。

数据中心用水量

为了降低能耗及相关排放，数据中心通常会使用水进行冷却。随着优化 AI 系统以提高能源效率，其整体用水量也会随之自然减少。

通过上述更全面的指标，谷歌得出一次 Gemini 查询的能耗为 0.24wh，排放 0.03 g CO ₂ e，同时耗水量约 5 滴。

如此低的能耗，谷歌究竟是如何实现的？

为什么 Gemini 消耗这么低

谷歌表示，Gemin 显著的效率提升得益于其在 AI 开发中采取的全栈方法，从定制硬件、高效模型，到支撑这些模型运行的强大服务系统，他们在每一层都融入了效率优化。

首先是更高效的模型架构，Gemini 是谷歌研究人员开发的 Transformer 模型框架，相比之前的语言建模架构，其效率可提升10 倍到 100 倍。

此外，他们还在模型设计中融入了像 MoE 和混合推理等机制，从而进一步减少计算量和数据传输，提高整体运行效率。

与此同时，Gemini 通过精准量化训练（AQT）等方法不断得到优化，使模型在保证回答质量的前提下进一步降低了能源消耗。

在优化推理和服务上，谷歌不断改进 AI 的交付方式，以提升响应速度和整体效率。

比如通过推测解码技术，较小的模型可以先进行预测，再由较大的模型快速验证，从而用更少的芯片提供更多响应。

蒸馏技术则可以利用大型模型作为教师，生成用于服务的小型高效模型（如 Gemini Flash 和 Flash-Lite）。

不仅如此，为了减少能耗，谷歌在硬件上还采用定制化。

十多年来，他们一直从零开始设计 TPU，以最大化每瓦的性能。同时，他们还协同设计 AI 模型与 TPU，确保软件充分利用硬件潜力，硬件也能高效运行未来的 AI 软件。

值得一提的是，最新一代 TPU Ironwood 的能效比首款公开 TPU 高 30 倍，在推理任务中远超通用 CPU。

接下来，就是优化空闲资源。谷歌的服务堆栈能够高效利用 CPU，并根据需求近乎实时地动态调度模型，从而最大化减少 TPU 的空闲时间，而不是采用 " 设置一次、永久运行 " 的方式。

同时，他们的 XLA ML 编译器、Pallas 内核和 Pathways 系统，使得在 JAX 等高级系统中表达的模型计算能够在 TPU 服务硬件上高效运行。

再来看谷歌的超高效数据中心，其整体平均能源使用效率（PUE）可达 1.09，为业界最高效的数据中心之一。

最后在数据中心运营方面，谷歌持续增加清洁能源的使用，以实现全天候无碳运行的目标，同时努力补充办公室和数据中心平均消耗的 120% 淡水。

此外，他们还优化冷却系统，通过科学的流域健康评估，平衡能源、水资源和排放之间的局部权衡，从而指导冷却方式的选择，并在水资源紧张地区限制用水量。

参考链接：

[ 1 ] https://x.com/JeffDean/status/1958525015722434945

[ 2 ] https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

8 月 22 日本周五，下午 14 点，量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee，一同来聊AI Agent，怎么搞投资？

欢迎线下参会！面对面交流 AI Agent、金融投资与 AI 创业

一键关注点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签