高效互联,或成 AI Infra 赛点。
作者 | 陈骏达
编辑 | 漠影
在新一轮 AI 技术浪潮中,基础设施正成为外界关注的焦点。随着基础模型规模从千亿级迈向万亿级,训练与推理的计算和通信需求迅速攀升,传统的算力堆叠模式已难以支撑。
超大规模 AI 模型催生出新的基础设施范式——超节点。这一概念突破了传统服务器的形态,由数十至数百个加速器组成,通过超高带宽、超低延迟的 Scale-up 网络连接,形成一个统一的资源池。
在国产高端算力供应受限的大背景下,超节点已逐渐成为支撑大模型训练和推理的关键架构,互联则被视作其中的核心环节。如何在超节点架构中实现高效互联,成为技术界与产业界共同探讨的焦点议题。
昨日,在 AI 网络全栈式互联架构解决方案提供商奇异摩尔与中国信息通讯研究院华东分院共同举办的 Networking for AI 生态沙龙上,多家企业分享了国产 AI 从技术突破到生态构建的整体进展,而超节点的互联,成为会上的重点议题之一。
在计算、网络两个领域均有一定积累的奇异摩尔,想用芯粒来解决超节点的互联挑战。其打造的高带宽、多语义支持的通用 IO 芯粒,或许代表着一种面向未来的 AI 网络基础设施思路。
01.
互联成算力破局关键
芯粒方案缘何成为新引擎
过去数年,AI 模型的可用性持续提升,带动企业 AI 推理需求迅速增长。与训练阶段的一次性计算不同,每次推理都需要调用数十亿甚至百亿级参数,对算力资源形成持续高压。
在实时交互场景中,模型不仅需要 " 算得准 ",还必须 " 算得快 ",毫秒级的延迟和高并发吞吐直接影响用户体验和系统效率。
在支撑上述新一代 AI 模型和应用的超节点中,互联几乎与算力本身同等重要。
高速互联保证模型参数在不同芯片之间的快速交换,是并行训练和推理的前提;大规模集群扩展离不开高带宽、低拥塞的网络,否则再多的 GPU 也难以形成合力;通信延迟则直接影响模型响应速度。
互联的重要性,也反映在 AI 基础设施投资趋势中。过去,互联技术在算力中心投资额中的占比不足 5%,如今已逐渐增加到15%-20%,未来还可能持续上升。
在探索互联技术未来发展方向的过程中,将 IO 芯粒从核心计算单元中分离出来,已成为一大技术趋势,并获得多家领先厂商采用,有望成为超节点扩展到千卡规模的重要技术路径之一。
华为昇腾 910 的 Side IO Die设计正是这一趋势的实践,它将密集计算与高速接口分工,有效提升系统吞吐量和制造良率。
英伟达下一代 Rubin 架构则采用多制程节点芯粒设计,不仅分离 I/O,还让计算单元实现模块化。
作为国内罕见的 AI 网络互联领域全栈供应商,奇异摩尔对这一技术路径的探索同样值得关注。
成立于 2021 年初的奇异摩尔,在芯粒技术方面积累深厚,早期通过中科创星构建产业资源网络,与半导体产业上下游合作伙伴建立深度协作关系。
奇异摩尔最早从片内互联切入,其自研的 IOD 互联芯粒3D Base Die(与复旦大学合作存算一体芯片)曾入选 ISSCC 2025 会议,获得这一被誉为芯片界 " 奥林匹克 " 的顶级会议认可。伴随 AI 浪潮的兴起,奇异摩尔在持续深耕片内互联的同时,也组建了专注于高性能 RDMA 网络技术的专业团队。
▲奇异摩尔首席网络技术专家叶栋
这家拥有计算与网络双重背景的企业,已全面布局 Scale-out、Scale-up 和 Scale-inside 三大方向。其首创的超节点 GPU 片间互联芯粒产品解决方案 Kiwi G2G IOD,在计算 Die 与 IO Die 解耦技术路径下,尤其值得关注。
02.
互联芯粒 G2G IOD 技术细节全揭秘
如何赋能 AI 超节点
何为超节点芯粒?这是一款专为 xPU(含 GPU)等加速器之间的 Scale-Up 网络互联而设计的超节点互联芯粒。
在 G2G(GPU 互联)领域,厂商们普遍面临四大难题,奇异摩尔的 G2G IOD 正是对这些痛点的直接回应。
带宽瓶颈
对超大规模 AI 模型而言,训练、推理和多模态数据交换本质上是数据密集型工作,只有 TB 级带宽才能避免算力闲置、模型同步延迟、用户体验卡顿,让超节点真正发挥作用。
Kiwi G2G IOD 支持TB 级带宽与高并发数据传输,给大模型的训练和推理提供持续稳定的高效互联支撑。
拓扑扩展性
超节点由数十甚至上百块 GPU/xPU 构成,不同的训练任务和部署场景对网络结构有不同要求:有些任务适合全互联(Full Mesh),有些适合脊叶(Spine-Leaf)结构。G2G IOD 便兼容全互联、脊叶等多种网络结构,避免在每次扩展或任务切换时重新设计网络的需求。
多语义需求
GPU 互联领域长期存在两种语义分野:消息语义与内存语义。
消息语义适合大块数据传输,通常通过 RDMA(远程直接内存访问)来完成。内存语义则更适合小粒度操作。GPU 之间可以像访问本地内存一样,直接对另一颗 GPU 的内存进行操作。
过去的产业格局中,英伟达 NVLink 以私有协议走内存语义路线,而华为、Intel 等厂商更多采用消息语义方案。
然而,单纯依赖消息语义,在传输大块数据时效率很高,但在处理小数据时会面临巨大开销。单纯依赖内存语义,虽能高效处理小规模访问,却在面对大数据搬移时效率下降。
因此,一个理想的 Scale-up 互联架构,必须同时支持两种语义。G2G IOD 同时支持消息语义和内存语义,这种 " 双模 " 设计,才能真正兼顾性能与灵活性。
协议通用性
当前 Scale-up 协议从简单 P2P 接口演进为复杂协议,通用协议仍在标准化过程中。
G2G IOD 本身基于奇异摩尔独创的 HPDE 可编程架构,能支持不同的协议包括 SUE、OISA、ETH-X,和未来其他主流协议,从而满足不同厂商不同场景的需求,在生态百花齐放的 Scale-up 系统中支持多协议类型及其升级,从而降低持续研发难度和开发成本。
G2G IOD 的优势不仅体现在性能,更在于芯粒架构带来的战略价值。
芯粒范式赋予系统架构师对性能、功耗、面积和成本(PPAC)四个维度进行解耦和独立优化的能力,从而显著提升系统设计的灵活性,并降低研发门槛。
▲ GPU 互联芯粒与 GPU 集成 I/O 通信 IP 的区别
一方面,越来越大的超节点域所带来的网络流控、IO 功能对于 xPU 企业的研发提出复杂性挑战。而解耦的互联芯粒无需在设计阶段就确定采用何种 Scale-Up 协议,同时也大幅降低了研发难度和成本,可节省数亿元的研发投入。
另一方面,基于奇异摩尔的 HPDE 高性能可编程架构,G2G 芯粒支持通过用户友好的编程配置或产品升级来适配更新的算法和协议类型,有利于实现快速迭代与升级,进一步降低持续研发的难度和开发成本。
此外,该范式还支持开放生态,可复用现有的网络交换机,无需专门研发专用交换机,有助于构建更加开放和具备竞争力的 Scale-Up 生态系统。
在工艺体系方面,芯粒设计是应对后摩尔时代挑战、特别是先进制程节点下成本与物理限制的重要战略转型。其关键优势在于支持异构集成,即不同制程节点的芯片可分别优化后组合集成。
其中,成熟制程的应用有助于提升良率、降低非经常性工程(NRE)成本,而计算单元仍可采用最先进制程,从而实现整体异构集成所带来的成本优化。
G2G IOD 并非一款单点产品,而是开放生态的一部分。可以说,这款芯粒既是超级节点互联的性能解法,也是国产 AI 算力基础设施走向开放化和规模化的一次关键尝试。
03.
拥抱开放生态
多套方案回应 AI 时代算力变革
在当前的 AI 加速计算领域,奇异摩尔推出的超节点互联解决方案是行业内目前唯一一种基于芯粒架构并构建于开放生态之上的互联方案。
奇异摩尔积极投身于全球及国内主流开放标准生态的建设,全面参与了 UEC、UALINK、OISA、ETH-X 等多个关键产业联盟。
其中,与中国移动共同构建 OISA(全向智感互联)生态是其战略重点之一。自 OISA 1.0 阶段起,奇异摩尔便深度跟进该技术体系的演进。
在 2025 年中国算力大会上,奇异摩尔作为核心合作伙伴,与中国移动等产业伙伴共同启动了 OISA 生态共建战略合作,并见证了性能大幅增强的 OISA 2.0 协议的发布。
中国移动研究院技术经理李锴在活动演讲中谈道," 作为 OISA 体系的积极践行者,奇异摩尔深度投身生态建设,在协议及 IO 芯粒的标准制定与产品研发中全力推进生态适配,为《OISA 全向智感互联 IO 芯粒技术白皮书》的编撰贡献了关键力量。"
奇异摩尔作为一家全栈 AI 网络互联企业,还在 Scale-out 超级网卡 SuperNIC 和 Scale-inside D2D 方面有产品布局。
在 Scale-out 方向,为应对网络面临的带宽、延迟、海量节点流控和成本控制等多重挑战,业界提出了 UEC(Ultra Ethernet Consortium,超级以太网联盟)技术路线,为下一代 RDMA 提供方向。
奇异摩尔在研的 Kiwi SNIC 超级智能网卡内置高性能 RDMA 引擎,提供高达 800G 带宽,并支持乱序处理、多径传输和选择性重传,显著提升大规模网络的数据传输效率和可靠性。
在 Scale-Inside 方向,奇异摩尔的片内互联方案,基于 UCIe 的 D2D IP 及 Central IO Die 及 3D Base Die 系列,可赋能 AI 芯片 / 高性能芯片的算力提升,进一步提升 AI 网络的单计算卡算力。
04.
结语:国产 AI 算力闭环
初步成型
在昨日落幕的生态沙龙活动上,我们看到越来越多企业正覆盖从算力芯片到算法模型再到算力服务的全链条环节,展现了国产 AI 从技术突破到生态构建的整体进展,国产算力闭环正在持续完善。
奇异摩尔这样的企业专注于互联解决方案,构建了从芯片内部到超算集群的完整闭环,不仅解决了传输性能、协议兼容性和部署成本等核心难题,更以开放标准和灵活架构推动了国产算力生态的持续迭代与升级。
新华三则发布了全新 H3C UniPoD 系列超节点,支持高性能 Scale-up 互联,可实现单机柜多卡 GPU 的高速互联与资源协同,满足大模型训练和推理需求。该系列同时支持灵活交付模式,助力企业快速构建业务和全栈能力。
此外,财跃星辰、腾讯云、沐曦、中科创星、无问芯穹、后摩智能、中昊芯英等企业也分享了他们在打造国产 AI 技术体系上的探索。
在会上,中国信通院华东分院总工程师陈俊琰指出,未来,智能算力产业的高质量发展需要强化技术创新协同,突破核心瓶颈;完善算力调度体系,提升配置效率;深化场景融合应用,赋能实体经济。
中科创星董事总经理卢小保认为,AI 算力正由单体智能往群体智能发展,Scaling Law 下,互联的作用越来越凸显,成了延续摩尔定率、不断提升算力密度的核心解决路径。在国内先进工艺受限的情况下,互联更是具备特殊价值,让国内算力产业可以以规模和成本换性能,实现算力自立。
业内投资专家曾指出:" 未来三年,谁能把国产算力高效‘连’起来,谁就能赢得 AI 基础设施的赛点。" 互联,这个曾经被忽视的技术角落,正成为国产 AI 算力能否真正实现闭环的关键一战。
登录后才可以发布评论哦
打开小程序可以发布评论哦