快科技 3 月 12 日消息,AI 基建除了需要高性能 GPU 等计算芯片之外,网络芯片也成为核心,NVIDIA 的 AI 护城河就包括了 InfiniBand(简称 IB)解决方案,现在国产全栈自研的 IB 芯片也来了。
今天中科曙光发布了国产 InfiniBand 原生无损 RDMA 高速网络 scaleFabric,在 AI 大模型万卡集群训练中,可实现典型 AI 训练任务网络效率大幅提升,缩短模型训练周期,在性能方面对标国际顶尖 IB 产品,成本较市面 IB 方案降低约 30%。
根据官方数据,scaleFabric 端到端时延低至 0.9 微秒,交换时延约 260ns,与 NVIDIA NDR 相比,交换机端口密度提升 25%,网卡最大 QP 数支持提升 100%,单子网互连规模是传统 IB 的 2.33 倍,可轻松支持最大 11.4 万卡集群部署,同时网络总成本可降低 30%。
中国工程院院士邬贺铨表示,scaleFabric 是国内首款全栈自主研发的 400G 原生 RDMA 高速网络系统,性能对标国际主流,且经规模化实践验证,补齐了国产高速网络的短板。
这套 IB 网络系统实际上已经在国家超算互联网郑州核心节点,今年初中科曙光的 3 套万卡超集群已经在这里上线试运行,已累计为超万名用户提供算力服务,并且网络总体成本降低 30%,未来可将集群规模轻松扩展至 10 万卡以上。



登录后才可以发布评论哦
打开小程序可以发布评论哦