钛媒体 09-01
海底数据中心,AI时代的能耗最优解?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

生成式 AI 的发展,一方面重构了各行各业业务流程与数字化模式;另一方面,对于底层算力基础设施也提出了更高的要求。

根据 IDC 测算,预计到 2027 年,AI 数据中心容量的复合年增长率 ( CAGR ) 将达到 40.5%,与此同时 AI 数据中心的能源消耗预计将以 44.7% 的 CAGR 增长,到 2027 年达到 146.2 太瓦时 ( TWh ) 。

"AI 的尽头是能源。" ——这句话已经成为业内共识。2024 年全球数据中心耗电达 415 太瓦时,占据全球总用电量的 1.5%,与英国全年用电量相当。其中,美国数据中心耗电量 180 太瓦时占全球 45% 的份额,其次是占据 25% 的中国和占据 15% 的欧洲。目前中国数据中心年耗电量约 100 太瓦时,大致相当于国内电动汽车的年用电量。

与此同时,国际能源署报告预测,到 2030 年,全球数据中心用电将飙升至 945 太瓦时,逼近日本当前全国用电规模。

国际能源署发布的《能源与 AI》报告中指出,以 OpenAI 的 GPT-4 为例,该数据模型在持续 14 周的数据模型训练中消耗了 42.4 吉瓦时电力,日均耗电 0.43 吉瓦时,这堪比 2.85 万户欧美家庭的日均用电量。

在 AI 需求爆发前,数据中心的冷却系统已占据 40% 的能耗。而 AI 服务器的单机柜功率从 10kW 跃升至 50kW 以上,彻底击穿了风冷系统的散热极限。微软 Azure 团队发现,传统风冷数据中心在搭载 H100 GPU 后,PUE 值从 1.3 飙升至 1.8,部分高热区域甚至出现服务器宕机。

AI 能耗颠覆 IDC 产业

基于上述背景,不仅是数据中心供冷系统,甚至连数据中心整体架构都迎来了变革,对此,海兰云云计算首席技术官林杨表示,作为高载能行业,数据中心提升能源利用率,在数据中心整体运营过程中至关重要。

除此之外,因为绝大多数数据中心服务器并非 24 小时都处于满负载运行,而闲时的算力即便未被利用,数据中心内部电力消耗却不会因此减少,所以,在并行科技市场总监荀军看来,如何利用好闲时算力,将每个 Token 的算力都尽可能的充分利用好,也是接下来数据中心行业架构变革过程中需要解决的问题。

面对 AI 需求与能耗的双重考验,数据中心技术演进也向着两个方向推进。

一方面,数据中心内部设备的功耗不断降低,将除去服务器之外的所有 " 辅助 " 设备的能源消耗尽量降低到最低,比如,供冷方面采用制冷效果更好,相对耗电量更小的液冷或间接蒸发冷却技术;供配电采用相对电力损耗更低的高压直流的方式等。

另一方面,也有不少 IDC 服务商在数据中心建设选址,以及设计等方面寻找数据中心碳中和与 AI 需求 " 双赢 " 的解。

比如,华为就选择 " 挖山 " 建设数据中心,将机房放在山体内,以降低供冷消耗,而海兰信则选择将数据中心建设在水中,通过海水带走多余的热量,一方面能有效降低数据中心能耗,另一方面还能回收相对 " 热品位 " 较高的海水的热量,余热回收会进行副业的赋能与发展。

海兰信并不是 " 第一个吃螃蟹的人 "。早在 2015 年,微软就在苏格兰附近海域部署了全球第一个海底数据中心。微软先是于 2015 年在太平洋海域完成了 105 天概念验证,并后续在 2018 年在苏格兰东北部的奥克尼群岛海底 117 英尺深处部署了名为 " 北方群岛 " 数据舱。该数据舱内置 864 台服务器,可以存储 27.6PB 的数据。在海底运行了两年后,微软在 2020 年 6 月把它打捞上岸进行分析。

据微软分析公布,该数据舱运行两年间,故障率仅为陆地数据中心的 1/8,PUE 值低至 1.07。其核心在于全密封氮气环境与海水自然散热的结合——通过铜制散热片将服务器热量直接传递至 4-12 ℃的深层海水,彻底摒弃传统制冷系统。

而也正是在 2020 年,海兰信开始了海底数据中心的技术验证和研发进程,并于 2023 年在海南陵水清水湾,正式下水了一期首舱。据悉,该项目利用海水自然冷却技术,具有低能耗、高可靠性和模块化部署优势。

同样经过了两年多的实验与摸索,林杨告诉笔者,目前该项目实现 PUE 值约 1.1,电能损耗降低 10% 以上,能效提升可达 30% 以上。

显然,在海底部署数据中心可以有效的降低数据中心制冷方面的能源消耗,同时还能提升电能利用率。另一方面,将数据中心采用完全封闭的方式,也可以将内部服务器完全与外界干扰隔绝。从而降低人为等因素带来的数据中心故障率(此前有数据统计,数据中心内部,有超过半数的故障是因为种种人为因素导致的),而完全真空无尘的环境,也可以延长服务器的寿命。

而从 TCO(全生命周期成本)角度来看,海底数据中心也明显优于陆地建设数据中心。据统计,海底数据中心的 TCO 较陆地低 15-20%。以海南陵水项目为例,单个数据舱建设成本约 3300 万元,但每年节省电费约 660 万元(按 0.6 元 / 千瓦时计算),加上淡水节约(31.5 万元 / 年)和土地成本(6.8 万平方米 /100 舱),五年即可收回投资。

相比之下,陆地液冷数据中心虽然 PUE 可降至 1.15,但建设成本增加 30%,且需额外投入淡水资源(单机柜年耗水 200 立方米)。微软测算,一个 5000 机柜的海底数据中心,十年可节省运营成本 1.2 亿美元。

除此之外,通过对海底数据中心余热的回收,还可以带动周边海域的渔业等副业发展,形成一个相对较为完善的生态闭环,产生额外价值。

仍有很大优化空间

虽然将数据中心放在海底有诸多好处,但仍存在一些弊端。

其最大的一个弊端就是——数据舱位于完全 " 与世隔绝 " 的海底,后续运维难度极大,需将数据舱完全吊出海面才能进行运维。尤其是在 AI 算力快速发展的今天,服务器的更新换代也逐渐提速,频繁的吊装数据舱为企业造成了额外费用的同时,也会破坏相对稳定的舱内环境。

为此,林杨告诉笔者,海兰云目前已经推出了海底数据中心 2.0 项目,据他介绍,该项目与位于陵水的项目不同的是,数据中心采用了潜入式的方案,将数据舱完全固定在海底,并预留了运维人员出入的管道,后续运维操作可以借由该管道进出。

" 我们在位于上海的海底项目采用了 2.0 的方案,将数据中心固定在海底 20 米深左右的海床上,一方面这个深度可以确保海平面上的风浪不会对数据中心造成影响,另一方面,20 米的深度也为潜入式运维提供了必要的条件保障。" 林杨强调。

据林杨介绍,该项目预计于今年 9 月中旬正式投产,并且后续将进一步海上风电为数据中心供电," 该项目规模在 200MW 左右,部署完海上风电之后,超过 95% 的电力都将采用风电的方式供应,更进一步的降低了数据中心的 PUE,同时也在陆地上备接了市电,确保业务的连续性。" 林杨如是说。

除了运维与建设层面的优化之外,整个算力应用与算网的建设层面,是目前整个数据中心行业都需要面临的挑战,海底数据中心也不例外。

在荀军看来,算力调度运营平台已经成为当前提升算力利用率的最佳路径,如果能将该平台的建设与基础设施层面海底数据中心的建设相结合,应用 / 软件层面上的最佳与基础设施层面上的最佳路径的结合,将成为未来数据中心的最优解。

而算力平台的建设也并不是并行科技一家的布局,目前业内已经有不少云服务商、IDC 服务商、算力服务商都推出了相应的调度平台。究其原因,在 AI 算力需求爆发式增长的背景下,企业对于算力体系建设方面也在发生着变化。

原先,企业自建算力基础设施可能是一个比较 " 划算 " 的应用算力的形态,但这种模式在现阶段存在了一定弊端。

首先,企业选择自建算力基础设施的过程中,一次性投入很大,尤其是要能支撑起当前 AI 算力需求的硬件投入是十分庞大的,且周期很长,不能满足企业短时间的业务需求。

其次,对于大多数企业而言,业务规模没有达到那么大量的需求,建设好的机房利用率很低,有一些甚至不足 30%,这对于企业而言,相当于 " 花大钱,半小事 ",十分不划算。

而企业对于直接购买算力的需求,也催生了越来越多 " 卖算力 " 的算力服务商。在算力买卖过程中,算力调度运营平台就成为了关键的抓手。‌

而此前与并行科技 AI 云事业部总经理赵鸿冰的交流中,他曾向笔者表示,目前选择算力平台负载业务的企业越来越多,这也对算力服务商构建算力调度平台提出了更高的要求。" 这些要求中,最为紧要的是高性能通信的要求,只有通信的性能足够强,才能真正实现良好的调度效果。" 赵鸿冰强调。

海底数据中心与算力平台的结合,无论是在底层基础设施层面,还是在中间算力输送层面,都是对当前数据中心行业的一次重构。畅想一下未来的算力产业,或将成为 " 海底节点 + 陆地集群 + 边缘终端 " 的协同体。

海底数据中心承担大模型训练的高密算力,陆地液冷集群处理实时推理,边缘节点支撑毫秒级响应,三者通过智能调度平台形成动态平衡。这种一体化的算力生态,也有望成为应对 AI 多元化需求的最优解。(本文首发于钛媒体 APP,作者|张申宇,编辑丨盖虹达)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

数据中心 ai 国际能源署 美国 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论