全球领先！中科曙光发布scaleX万卡超集群

快科技 12 月 18 日消息，中科曙光宣布，中科曙光近日正式发布全球领先的大规模智能计算系统—— scaleX 万卡超集群。这也是国产万卡级 AI 集群首次以真机形式对外亮相。

scaleX 万卡超集群是曙光基于大型计算机系统研制经验，面向万亿参数大模型训练、科学智能等复杂场景打造的大规模智能算力基础设施。

中科曙光高级副总裁李斌表示，为应对人工智能基础设施对性能、效率与可靠性的极致需求，该系统在超节点架构、高速互连网络、存储性能及系统调度等方面实现多项突破，部分技术能力已超越海外同类产品 2027 年的规划节点。

该集群的核心技术优势主要体现在以下四个方面：

全球首创单机柜级 640 卡超节点

scaleX 万卡超集群由 16 个 scaleX640 超节点通过高速网络互连组成，可部署 10240 块 AI 加速卡，总算力规模超过 5EFlops。作为全球首个单机柜级 640 卡超节点，scaleX640 采用超高密度刀片与浸没相变液冷技术，将单机柜算力密度提升 20 倍，PUE 值降至 1.04。

自主研发原生 RDMA 高速网络

搭载曙光自研的 scaleFabric 网络，基于国内首款 400G 类 InfiniBand 原生 RDMA 网卡与交换芯片，实现 400Gb/s 超高带宽与低于 1 微秒的端侧通信延迟。该网络支持超节点间高性能通信，可轻松将集群扩展至 10 万卡以上，相比传统 IB 网络性能提升 2.33 倍，总体成本降低 30%。

存算传紧耦合深度优化

通过 " 超级隧道 "、AI 数据加速等设计，实现从芯片、系统到应用的三级数据传输协同优化，高效支撑大模型训练中万卡并发读写的带宽需求，提升 AI 推理响应速度与精度，并将 AI 加速卡资源利用率提高 55%。

超集群数字孪生与智能调度

依托物理集群数字孪生技术，实现故障定位与修复的全流程可视化智能管理。智能化运维平台支持集群长期可用性达 99.99%；调度引擎可管理万级节点、服务十万级用户，支持每秒万级作业调度。

作为 "AI 计算开放架构 " 的最新成果，scaleX 万卡超集群支持多品牌加速卡及主流计算生态，已完成 400 余个主流大模型与世界模型的适配优化。该系统可广泛应用于大模型训练、金融风控、地质能源勘探及科学智能等多个领域。

"AI 计算开放架构 " 由中科曙光联合 20 余家 AI 产业链企业共同推进，旨在通过共性技术共享与系统工程方法推动智算集群创新。scaleX 万卡超集群的推出，将有助于降低 AI 企业研发门槛，推动行业从技术 " 单点突破 " 迈向产业 " 生态共进 "，真正实现开放、普惠的算力服务。

宙世代

一起剪

相关标签