智东西
作者 | 陈骏达
编辑 | 漠影
随着大模型的快速演进和模型参数规模的快速增长,AI 算力需求正呈现爆发式态势。然而,支撑芯片发展的摩尔定律已逼近物理极限,晶体管微缩带来的成本呈指数级上升,性能提升幅度却逐年收窄。
这一根本性矛盾促使业界亟需探索一种能继续扩展 AI 基础设施的解决方案。超节点技术应运而生,通过数十张乃至数百张加速卡的高带宽互连,将相对独立的计算资源整合为统一的超级计算单元,突破了传统架构在规模扩展上的瓶颈。
不过,在国内环境中,由于高端算力的缺乏,国产超节点方案往往需要整合更大规模的集群,这对互连技术提出了更高的要求。在带宽、能耗、传输距离上较传统电互连方案更具优势的光学方案的应用,有望逐步成为推动超节点性能提升的关键驱动力。
就在昨天,国内光电混合算力独角兽曦智科技在世界人工智能大会(WAIC)上发布了国内首个光互连光交换 GPU 超节点光跃 LightSphere X,并联合壁仞科技、中兴通讯首次进行示范应用,即将于上海仪电国产超节点算力集群落地。
凭借全球首创的分布式光交换技术,光跃 LightSphere X 获得世界人工智能大会的最高奖项,2025 SAIL 奖,并成为 SAIL 四大评价维度(Superior, Application, Innovation, Leading)中 "Innovation"(创新)维度的标杆案例。
近日,智东西与曦智科技创始人兼 CEO 沈亦晨博士、曦智科技联合创始人兼 CTO 孟怀宇博士以及曦智科技互连产品线副总裁朱剑进行了近 2 个小时的深入沟通,他们向智东西等媒体剖析了光跃 LightSphere X 背后的技术创新与曦智科技对光电混合算力行业的长期展望。
一、超节点互连技术路径分野,国产方案如何突围
当下,海外的超节点方案基本由英伟达主导,使用电交换构建单柜达 72 卡的大规模超节点,也就是所谓的 GB200 NVL72。
该解决方案依赖于一个在国内看来几乎有些 " 奢侈 " 的前提——每张 GB200 的算力数倍于国产卡。若要实现同等效果,国产超节点可能需要进行成百上千卡的互连,在现有条件下,基本难以在单机柜内实现。
即便从理论上可行,单机柜内构建如此密集的电互连方案本身也面临极高的技术挑战和投入成本,对于目前国内的产业基础来说,依然是一项极具挑战性的任务。
因此,国产解决方案更可行的路径或许是通过增加机柜数量,先确保计算卡的总量,再通过高效互连技术组成超节点。
沈亦晨博士称,在多机柜场景下,传统的铜导线连接距离一旦超过 1-1.5 米,就无法满足超节点对带宽和延时的严苛要求,光互连几乎成为必选项。
谷歌曾在其 TPU 光互连超节点方案采用集中式光交换,实现 GPU 集群间的跨机柜通信。不过,该方案专为 TPU 定制,硬件成本高昂,对全栈软件能力要求较高,目前除了谷歌外尚未有其他厂商采用。
前段时间带火超节点概念的华为昇腾 CloudMatrix 384 超节点,也使用了光互连网络,配备近 7000 个光模块,让数百块 GPU 能实现高效协同。
此外,要打造高效的超节点方案,交换也是极为关键的一环。
沈亦晨博士介绍,在模型训练过程中,不同阶段 GPU 间的通信拓扑存在动态变化。英伟达采用 NVSwitch 电交换芯片集中调度 NVLink 信号,类似交通信号灯统一分配各 GPU 间的通信路径。
然而,国内 GPU 厂商普遍缺乏同类高性能电交换芯片,现有解决方案在性能上仍与英伟达存在显著差距。此外,国内 GPU 厂商的互连接口协议也各不相同,传统交换机无法做到统一调度。
面临种种挑战,国产超节点方案究竟应该如何破局?作为国内乃至全球领先的光电混合算力提供商,曦智科技依托其在光子计算和光子网络的技术积累,交出国内首个光互连光交换 GPU 超节点解决方案光跃 LightSphere X。
二、首创分布式光交换芯片,相关成果获顶会认证
光跃 LightSphere X 的核心技术,是曦智科技全球首创的基于硅光子技术的分布式光交换 dOCS(distributed Optical Circuit Switch)芯片。
若把传统集中式的交换芯片比为中央物流中心,将每张计算卡比为一个车间,分布式光交换技术所进行的调整,就是取消了中央物流中心,转而在每个车间旁边设置小型物料中转站,使物料传输路径更短、更直接。
得益于这一架构,光跃 LightSphere X 可灵活配置超节点的规模,并可灵活切换 GPU 间互连拓扑结构,以适应不同模型负载对通信模式的差异化需求。
在大规模训练、推理场景中,上述解决方案在 GPU 冗余率上展现出明显优势。传统超节点必须整体运作,单卡故障会导致整个节点下线,冗余成本高;而分布式光交换让超节点支持动态重组——当检测到异常时,系统可自动移除故障节点,接入备份服务器重新组网。
这种 " 卡级冗余 " 相比传统 " 节点级冗余 " 大幅降低备用资源需求,将冗余比例从整节点压缩到单卡级别,冗余率仅为英伟达、谷歌等方案的 1/10。
光跃 LightSphere X 解决方案在商用光电转换模组的基础上,增加了用于光交换功能的芯片,以较低的成本实现了分布式的光交换。分布式设计方案几乎可以无限扩展,突破了传统交换芯片对连接数量的限制。
在本届 WAIC 期间发布的光跃 LightSphere X 获得了 SAIL 奖(WAIC 最高奖项),也成为该奖项创新维度的标杆案例。而 dOCS 相关方案则收录于国际通信网络旗舰会议 SIGCOMM 2025。
除了技术方面的突破之外,光跃 LightSphere X 还对国产算力生态起到了一定的推动作用。
当下,国产 GPU 类型、架构庞杂,协议各有区别,难以形成协同效应。而光交换本身不依赖于特定的数据传输协议,这意味着它能无缝兼容不同厂商使用的互连协议。这有效缓解了开放生态中缺乏高效 Scale-Up 交换芯片的现状,推动了基于光交换的 Scale-Up 技术路径。
此外,dOCS 芯片基于硅光技术,其设计与制造不依赖于先进半导体工艺节点,这对提升算力基础设施供应链的安全性与韧性也有较大意义。
三、硅光技术迎来历史机遇期,5 年内硅光芯片占比或将达 30%
光跃 LightSphere X 是曦智科技在 AI 算力需求大爆发的当下,对光电混合算力的最新探索,这离不开曦智成立 8 年多来在硅光技术上的长期投入。该公司拥有光子矩阵计算(oMAC)、片上光网络(oNOC)和片间光网络(oNET)三大领域的核心技术,并打造了光子计算和光子网络两大产品线。
沈亦晨认为,近两年,硅光技术在国际上的热度和重视度不断攀升,可能已经走到历史上最好的阶段。面临这一历史机遇期,曦智从两年前便开始聚焦产品化、商业化,业务收入在过去 3 年内快速增长,今年芯片出货量已经达到数万颗。
放眼未来,曦智科技的高管们一致认为,随着算力集群和算力需求越来越大,硅光是必然的解决方案。虽然国际上纯电互连仍占主导,但华为这一主流厂商已将光互连引入超节点解决方案,英伟达的下一步也可能是如此。
此外,光互连和光交换技术当前仍属于系统级方案,通过外接光模组实现,通过不断迭代,未来光互连和光交换器件有望与主芯片实现共封装,从而进一步提高带宽和能效。
沈亦晨预测,未来五年,硅光芯片在智算中心的占比有望提升至 30% 以上。随着规模化量产,硅光芯片成本将成倍下降,推动成本降低到应用普及的正向循环。
具体来看,他认为光互连有望率先在未来几年出现指数级增长;光计算则从大模型推理、AI for Science 等追求极致性能的场景切入,逐步扩展通用性。
曦智科技目前拥有一支近 250 人的团队,核心成员由来自麻省理工学院的顶尖科学家和拥有丰富半导体行业经验的业界知名人士组成,在上海、杭州、南京、北京、新加坡等地均设有办公室及实验室。
自成立以来,曦智科技在产品进展、技术研发、融资规模等方面均位居全球光电混合赛道前列。孟怀宇博士透露,曦智在光学芯片、模拟芯片、先进封装技术等方面都拥有前瞻性的技术储备。
负责互连产品线的朱剑则称,曦智有很多先进的技术储备,但该公司会采取较为务实的态度,根据市场的发展阶段提供适合的解决方案。
结语:实现从 0 到千卡突破,光电融合已成行业大势
光电混合算力作为一项前沿技术,在落地的时候必然面临客户原有技术路径的惯性问题。沈亦晨透露,直到如今,曦智仍需要花精力 " 教育市场 ",逐步说服厂商采用这一技术。
令人庆幸的是,曦智已在光跃 LightSphere X 方案上实现了从 0 到千卡突破,将对光互连超节点方案的鲁棒性和成本效益验证起到极大的推动作用。
在智东西与曦智的沟通中,我们清楚地感受到其发展路径:以光电混合算力技术为支点,逐步撬动算力基础设施的升级,同时保持对 " 光替代电 " 的长期信仰。
登录后才可以发布评论哦
打开小程序可以发布评论哦