科创板日报 03-13
对标英伟达的国产“算力动脉”来了!中科曙光发布首款全栈自研IB网络产品 已实现万卡级智算集群支持
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

《科创板日报》3 月 13 日讯(记者 郭辉)3 月 12 日,中科曙光在郑州宣布实现国产高端原生 RDMA 技术重大突破,正式发布首款全栈自研 400G 无损高速网络—— scaleFabric。

据了解,中科曙光 scaleFabric 是首款国产全栈自研 IB 网络产品。

在大规模智算集群领域,RDMA(远程直接内存访问)网络已成为算力中心的基本需求。中科曙光 scaleFabric 是基于原生 RDMA 架构,从底层的 112G SerDes IP、硬件设备到上层的管理软件实现 100% 自主研发,突破了海外在高端原生 RDMA 网络的技术垄断。

中国工程院院士邬贺铨表示,高速网络作为算力基础设施的核心关键技术,其自主可控性直接关系到国家算力基础设施的安全与发展质量。在大模型训练和智算集群规模化部署背景下,网络需要同时具备超低延迟、超高带宽与无损传输能力,而 RDMA 高速网络正是智算集群的 " 算力大动脉 "。

目前 InfiniBand 和 RoCE 是市场主流的高速网络技术方案。其中 InfiniBand 凭借低时延与原生无损传输能力,在全球顶级超算与 AI 集群中被广泛采用。根据 TOP500 榜单,目前全球约 60% 的高性能计算系统采用 InfiniBand 网络架构。

中科曙光 scaleFabric 采用 InfiniBand 原生 RDMA 路线,而非 RoCE 路线。对此,中科曙光表示,InfiniBand 的技术路线在 AI/HPC 中有不可替代的优势,是真正的无损网络,而无损的特性对 RDMA 性能的发挥具有优势,便于其更好对网络进行管理。

此前 InfiniBand(IB)相关产业链基本被海外厂商垄断。

2019 年,英伟达以 69 亿美元收购 Mellanox(迈络思)。Mellanox 是一家主打 InfiniBand 网络技术的公司。上一世纪 90 年代以后,随着超算技术的路径分化,InfiniBand 逐步成为高速网络的代名词。这一收购事件被视为算力史上的标志性转折点,英伟达凭此从一家 GPU 产品厂商转型为 AI 数据中心公司,还实现以整合网络技术,解决了 AI 算力规模化进程中的通信瓶颈。

据业内人士向《科创板日报》记者表示,中国市场用户在使用 IB 网络时面临诸多痛点,IB 网络虽然是开放协议,但是技术事实上是被迈络思公司所垄断的,其次其价格成本、服务和响应速度也难以满足国内客户的需求。

性能方面,据称,scaleFabric400 系列网络产品技术规格实现全面对标英伟达 NDR 产品。

中科曙光高速网络互联产品部总工程师万伟表示,scaleFabric 的核心是自主研发的两颗高速网络芯片。其中 scaleFabric400 网卡芯片做到了 400G 高带宽,采用自研的 RDMA 引擎;scaleFabric400 交换芯片实现了 64T 双向交换容量,采用 VCT 交换机式,转发延时可以低至 260 纳秒。

此外,scaleFabric 交换机端口密度做到了 80 口 400G,与英伟达 NDR 64 口交换机相比,端口密度提升了 25%,这使得 scaleFabric 的组网成本得到大幅的降低。同时,单卡最大 QP 数支持为 256K,相比英伟达 NDR 提升 100%,单子网互连规模是传统 IB 的 2.33 倍,可轻松支持最大 11.4 万卡集群部署,同时网络总成本可降低 30%。

" 实测数据来看,scaleFabric 基本上都能做到和英伟达 NDR 相当的水平,部分数据甚至优于 NDR 系列,两款芯片技术规格全面对标了英伟达当前主力量产的 NDR 产品。" 万伟如是称。

在与现有 IB 网络的兼容方面,据介绍,scaleFabric 提供原生的接口,可全面兼容各种通信库,实现无缝兼容各种 HPC 和 AI 的应用,各类大模型训练都可以在不改代码的情况下,直接迁移到基于 scaleFabric 的系统。同时,在网络管理和维护方式上,也兼容了 IB 用户的使用习惯。

对国产算力硬件的兼容上,中科曙光高级副总裁李斌接受《科创板日报》记者等媒体采访表示,过去 scaleFabric 已经对不同的计算芯片进行了互联适配,未来会探索更高效的方式,比如计算芯片通过专有的协同连接到网卡,另外还在生态内推动芯片互联协议的共享,探索与其他厂商芯片更高效的芯片直通。

在实际应用层面,scaleFabric 目前已部署在位于郑州的国家超算互联网核心节点,支撑三套万卡级 scaleX 智算集群上线运行,总规模达 3 万卡。

李斌表示,随着产品在超大规模智算集群中的落地应用,国产原生 RDMA 技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态正在加速形成。

随着此次首款国产全栈自研 IB 网络产品的发布,中科曙光联合、联想开天、中兴通讯、达梦数据、欧瑞科斯、乐讯科技、九章云极等产业合作方,成立光合组织高性能计算专委会 AIDC 高速网络工作组。

曙光信息产业(北京)有限公司副总裁李柳表示,"scaleFabric 技术推出后,未来还要依靠标准化的组织,以开放的姿态联合更多的国内合作伙伴,从 AI 数据中心、加速芯片到网络设备、AI 框架等多个环节,推动产业协同创新,构建 AI 网络生态。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中科曙光 英伟达 ai 科创板 基础设施
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论