突破铜缆物理极限：光互联助力AI训练提速三倍

硅谷人工智能基础设施的繁荣正遭遇一个出乎意料的物理瓶颈：在热量、距离和能耗达到临界点之前，通过铜线传输的数据量已触及上限。为解决这一难题，投资者、芯片制造商及云计算巨头正将目光转向光子学技术，利用光信号替代电信号，在 AI 芯片与服务器间实现高效数据传输。

Lightmatter 首席执行官尼克 · 哈里斯（Nick Harris）指出，AI 行业的发展阶段已发生根本性转变。性能提升的关键不再局限于让单个芯片运行得更快，而在于如何高效连接海量 GPU。当前 AI 系统严重依赖铜质连接，这在较小规模下尚能运作，但当数百甚至数千个 GPU 互联以构建前沿模型时，铜缆便成为显著瓶颈。

铜缆的物理局限与散热困境

哈里斯表示，电信号在铜缆中传输时会迅速衰减，有效距离仅约为 1 米，此后数据便会丢失。这一物理限制迫使数据中心将 GPU 服务器机架紧密堆叠，以便铜缆能够触及。然而，这种高密度布局导致散热极其困难，进一步加剧了能耗问题。

相比之下，光子学利用光纤传输光信号，数据能以更低能耗、更快速度传输更远距离，且信号不会降级。" 光学技术不关心距离有多远，它们甚至可以相距一公里。" 哈里斯称。这使得 GPU 服务器和机架可以更分散地布置，赋予数据中心运营商在集群设计与冷却方面更大的灵活性，有望大幅节省散热电力成本。

全光互联：性能提升三倍的杠杆

在扩展域（scale up domain）中，全光连接的优势尤为明显。哈里斯举例说明，若要通过铜缆连接 500 个 GPU 进行模型训练，通常需要四个独立的 GPU 服务器机架；而切换为全光连接后，所有 500 个 GPU 可直接互联。这种架构极大地缩短了 AI 模型的训练时间，速度可提升 3 倍。

" 谁先掌握这项技术，就能在这场前沿竞赛中更快地发布模型。" 哈里斯强调，企业面临两种选择：要么每月发布一次模型，要么花三个月时间发布一个规模大得多的模型。在同等功耗下，光子学能提供 3 倍的性能增益，这意味着 1 吉瓦的电力可发挥出 3 吉瓦的效能，或在三分之一时间内完成相同工作量。

BiDi 技术与成本拐点的到来

除了传输介质变革，Lightmatter 还在推进名为 BiDi（双向通信）的技术创新，旨在减少数据中心内部的线缆总量。传统连接中，GPU 间通信需两根线缆分别用于发送和接收。Lightmatter 通过将两个方向合并至单根线缆，可将下一代 AI 集群所需的线缆总长度从约 300 英里减半至 150 英里。这对于简化庞大 AI 集群建设、降低空间占用及维护复杂度至关重要。

尽管光子学曾因成本高昂而未获广泛采用，但随着制造技术进步及 AI 基础设施需求的爆发，局势正在逆转。哈里斯指出，系统架构师以往仅寻求常规的 2 倍性能提升，但从铜缆中挖掘性能的余地已耗尽。如今，率先部署光子学的企业——可能是英伟达等行业巨头——将获得巨大的竞争优势。" 过去是出于必要才切换，现在是为了竞争优势而切换。"

【星途科讯图文丨王宇洲】

宙世代

一起剪

相关标签