星途科讯 06-04
突破铜缆物理极限:光互联助力AI训练提速三倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

硅谷人工智能基础设施的繁荣正遭遇一个出乎意料的物理瓶颈:在热量、距离和能耗达到临界点之前,通过铜线传输的数据量已触及上限。为解决这一难题,投资者、芯片制造商及云计算巨头正将目光转向光子学技术,利用光信号替代电信号,在 AI 芯片与服务器间实现高效数据传输。

Lightmatter 首席执行官尼克 · 哈里斯(Nick Harris)指出,AI 行业的发展阶段已发生根本性转变。性能提升的关键不再局限于让单个芯片运行得更快,而在于如何高效连接海量 GPU。当前 AI 系统严重依赖铜质连接,这在较小规模下尚能运作,但当数百甚至数千个 GPU 互联以构建前沿模型时,铜缆便成为显著瓶颈。

铜缆的物理局限与散热困境

哈里斯表示,电信号在铜缆中传输时会迅速衰减,有效距离仅约为 1 米,此后数据便会丢失。这一物理限制迫使数据中心将 GPU 服务器机架紧密堆叠,以便铜缆能够触及。然而,这种高密度布局导致散热极其困难,进一步加剧了能耗问题。

相比之下,光子学利用光纤传输光信号,数据能以更低能耗、更快速度传输更远距离,且信号不会降级。" 光学技术不关心距离有多远,它们甚至可以相距一公里。" 哈里斯称。这使得 GPU 服务器和机架可以更分散地布置,赋予数据中心运营商在集群设计与冷却方面更大的灵活性,有望大幅节省散热电力成本。

全光互联:性能提升三倍的杠杆

在扩展域(scale up domain)中,全光连接的优势尤为明显。哈里斯举例说明,若要通过铜缆连接 500 个 GPU 进行模型训练,通常需要四个独立的 GPU 服务器机架;而切换为全光连接后,所有 500 个 GPU 可直接互联。这种架构极大地缩短了 AI 模型的训练时间,速度可提升 3 倍。

" 谁先掌握这项技术,就能在这场前沿竞赛中更快地发布模型。" 哈里斯强调,企业面临两种选择:要么每月发布一次模型,要么花三个月时间发布一个规模大得多的模型。在同等功耗下,光子学能提供 3 倍的性能增益,这意味着 1 吉瓦的电力可发挥出 3 吉瓦的效能,或在三分之一时间内完成相同工作量。

BiDi 技术与成本拐点的到来

除了传输介质变革,Lightmatter 还在推进名为 BiDi(双向通信)的技术创新,旨在减少数据中心内部的线缆总量。传统连接中,GPU 间通信需两根线缆分别用于发送和接收。Lightmatter 通过将两个方向合并至单根线缆,可将下一代 AI 集群所需的线缆总长度从约 300 英里减半至 150 英里。这对于简化庞大 AI 集群建设、降低空间占用及维护复杂度至关重要。

尽管光子学曾因成本高昂而未获广泛采用,但随着制造技术进步及 AI 基础设施需求的爆发,局势正在逆转。哈里斯指出,系统架构师以往仅寻求常规的 2 倍性能提升,但从铜缆中挖掘性能的余地已耗尽。如今,率先部署光子学的企业——可能是英伟达等行业巨头——将获得巨大的竞争优势。" 过去是出于必要才切换,现在是为了竞争优势而切换。"

【星途科讯 图文丨王宇洲】

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 数据中心 物理 gpu 哈里斯
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论