量子位 前天
谷歌技术报告披露大模型能耗:响应一次相当于微波炉叮一秒
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型耗电惊人,舆论一浪高过一浪。

现在,谷歌用硬核数据强势还击。

一次 Gemini 查询仅能耗 0.24wh,相当于微波炉运行 1 秒,排放 0.03 g CO ₂ e,甚至比人放一次屁还少,同时消耗约 5 滴水。

(文中数据均表示中位数)

谷歌首席科学家 Jeff Dean 公开表示:

这个数值明显低于公众普遍预期的水平。

并且像谷歌这样的大模型厂商,一直专注研究如何降低 AI 消耗。

一年间,通过模型优化和额外清洁能源的使用,Gemini 的能耗降至原来的 1/33,碳排放降至 1/44,同时提供了更高质量的响应。

下面让我们一起看看谷歌是如何衡量和减少 AI 能源消耗的?

如何衡量 AI 消耗能源

谷歌首先指出,目前许多关于 AI 能源消耗的计算反映的都是理论效率,而非大规模运行下的实际效率。

若 Gemini 只考虑 TPU 和 GPU 的消耗,一次查询只需消耗 0.10wh,排放 0.02 g CO ₂ e,耗水量约 0.12ml。

但这种计算方式仅考虑了机器在运行中的能耗,而忽略了一些关键因素。

与此同时,Jeff Dean 也表示:

人们都在思考 AI 是否会消耗大量能源?它是否会通过碳排放来伤害地球?

所以,谷歌针对 AI 服务时的实际情况,开发了一套更为全面的方法来计算能源消耗,包括以下几个部分:

全系统动态功率

这不仅包括主 AI 模型在计算过程中使用的能源和水,还考虑了大规模运行下实际的芯片利用率,而该利用率往往远低于理论最大值。

空闲计算机

为确保高可用性和可靠性,生产系统需要一定程度的预置容量,该容量处于空闲状态,但随时可以处理流量高峰或故障转移。这些闲置芯片消耗的能量必须计入总能源足迹。

CPU 和内存

AI 模型的运行不仅依赖 TPU 和 GPU 等机器学习加速器,主机的 CPU 和内存同样在提供服务和消耗能源方面起着关键作用。

数据中心开销

运行 AI 的信息技术设备所消耗的能源仅占整体能耗的一部分。支撑这些计算的基础设施,如冷却系统、配电系统以及其他数据中心开销同样会消耗能源。这部分开销能源通常用电力使用效率(PUE)指标来衡量。

数据中心用水量

为了降低能耗及相关排放,数据中心通常会使用水进行冷却。随着优化 AI 系统以提高能源效率,其整体用水量也会随之自然减少。

通过上述更全面的指标,谷歌得出一次 Gemini 查询的能耗为 0.24wh,排放 0.03 g CO ₂ e,同时耗水量约 5 滴。

如此低的能耗,谷歌究竟是如何实现的?

为什么 Gemini 消耗这么低

谷歌表示,Gemin 显著的效率提升得益于其在 AI 开发中采取的全栈方法,从定制硬件、高效模型,到支撑这些模型运行的强大服务系统,他们在每一层都融入了效率优化。

首先是更高效的模型架构,Gemini 是谷歌研究人员开发的 Transformer 模型框架,相比之前的语言建模架构,其效率可提升10 倍到 100 倍

此外,他们还在模型设计中融入了像 MoE 和混合推理等机制,从而进一步减少计算量和数据传输,提高整体运行效率。

与此同时,Gemini 通过精准量化训练(AQT)等方法不断得到优化,使模型在保证回答质量的前提下进一步降低了能源消耗。

在优化推理和服务上,谷歌不断改进 AI 的交付方式,以提升响应速度和整体效率。

比如通过推测解码技术,较小的模型可以先进行预测,再由较大的模型快速验证,从而用更少的芯片提供更多响应。

蒸馏技术则可以利用大型模型作为教师,生成用于服务的小型高效模型(如 Gemini Flash 和 Flash-Lite)。

不仅如此,为了减少能耗,谷歌在硬件上还采用定制化。

十多年来,他们一直从零开始设计 TPU,以最大化每瓦的性能。同时,他们还协同设计 AI 模型与 TPU,确保软件充分利用硬件潜力,硬件也能高效运行未来的 AI 软件。

值得一提的是,最新一代 TPU Ironwood 的能效比首款公开 TPU 高 30 倍,在推理任务中远超通用 CPU。

接下来,就是优化空闲资源。谷歌的服务堆栈能够高效利用 CPU,并根据需求近乎实时地动态调度模型,从而最大化减少 TPU 的空闲时间,而不是采用 " 设置一次、永久运行 " 的方式。

同时,他们的 XLA ML 编译器、Pallas 内核和 Pathways 系统,使得在 JAX 等高级系统中表达的模型计算能够在 TPU 服务硬件上高效运行。

再来看谷歌的超高效数据中心,其整体平均能源使用效率(PUE)可达 1.09,为业界最高效的数据中心之一。

最后在数据中心运营方面,谷歌持续增加清洁能源的使用,以实现全天候无碳运行的目标,同时努力补充办公室和数据中心平均消耗的 120% 淡水。

此外,他们还优化冷却系统,通过科学的流域健康评估,平衡能源、水资源和排放之间的局部权衡,从而指导冷却方式的选择,并在水资源紧张地区限制用水量。

参考链接:

[ 1 ] https://x.com/JeffDean/status/1958525015722434945

[ 2 ] https://cloud.google.com/blog/products/infrastructure/measuring-the-environmental-impact-of-ai-inference/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

 8 月 22 日本周五下午 14 点,量子位 AI 沙龙邀请了RockFlow 创始人、CEO 赖蕴琦 Vakee,一同来聊AI Agent,怎么搞投资?

 欢迎线下参会!面对面交流 AI Agent、金融投资与 AI 创业   

一键关注 点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

谷歌 ai 数据中心 芯片 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论