快科技 12 月 18 日消息,中科曙光宣布,中科曙光近日正式发布全球领先的大规模智能计算系统—— scaleX 万卡超集群。这也是国产万卡级 AI 集群首次以真机形式对外亮相。
scaleX 万卡超集群是曙光基于大型计算机系统研制经验,面向万亿参数大模型训练、科学智能等复杂场景打造的大规模智能算力基础设施。
中科曙光高级副总裁李斌表示,为应对人工智能基础设施对性能、效率与可靠性的极致需求,该系统在超节点架构、高速互连网络、存储性能及系统调度等方面实现多项突破,部分技术能力已超越海外同类产品 2027 年的规划节点。
该集群的核心技术优势主要体现在以下四个方面:
全球首创单机柜级 640 卡超节点
scaleX 万卡超集群由 16 个 scaleX640 超节点通过高速网络互连组成,可部署 10240 块 AI 加速卡,总算力规模超过 5EFlops。作为全球首个单机柜级 640 卡超节点,scaleX640 采用超高密度刀片与浸没相变液冷技术,将单机柜算力密度提升 20 倍,PUE 值降至 1.04。
自主研发原生 RDMA 高速网络
搭载曙光自研的 scaleFabric 网络,基于国内首款 400G 类 InfiniBand 原生 RDMA 网卡与交换芯片,实现 400Gb/s 超高带宽与低于 1 微秒的端侧通信延迟。该网络支持超节点间高性能通信,可轻松将集群扩展至 10 万卡以上,相比传统 IB 网络性能提升 2.33 倍,总体成本降低 30%。
存算传紧耦合深度优化
通过 " 超级隧道 "、AI 数据加速等设计,实现从芯片、系统到应用的三级数据传输协同优化,高效支撑大模型训练中万卡并发读写的带宽需求,提升 AI 推理响应速度与精度,并将 AI 加速卡资源利用率提高 55%。
超集群数字孪生与智能调度
依托物理集群数字孪生技术,实现故障定位与修复的全流程可视化智能管理。智能化运维平台支持集群长期可用性达 99.99%;调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度。
作为 "AI 计算开放架构 " 的最新成果,scaleX 万卡超集群支持多品牌加速卡及主流计算生态,已完成 400 余个主流大模型与世界模型的适配优化。该系统可广泛应用于大模型训练、金融风控、地质能源勘探及科学智能等多个领域。
"AI 计算开放架构 " 由中科曙光联合 20 余家 AI 产业链企业共同推进,旨在通过共性技术共享与系统工程方法推动智算集群创新。scaleX 万卡超集群的推出,将有助于降低 AI 企业研发门槛,推动行业从技术 " 单点突破 " 迈向产业 " 生态共进 ",真正实现开放、普惠的算力服务。



登录后才可以发布评论哦
打开小程序可以发布评论哦