驱动之家 2025-12-23
中科曙光正式公布scaleX万卡超集群:每节点640卡、总算力超500亿亿次
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 12 月 22 日消息,对高算力无限渴求的 AI 时代,最关键的已经不是单卡性能,而是尽可能高效地堆叠足够多的加速卡,构成庞大的集群。

除了 NVIDIA、AMD,国产厂商也正在这方面全力突破,华为、摩尔线程、中科曙光等都是突出代表。

近日,中科曙光正式发并展示了 scaleX 万卡超级群,这也是国产万卡基 AI 集群的首次真机亮相。

不同于华为封闭式的全自研集群,中科曙光 scaleX 万卡超集群旨在构建开放、兼容、高密度的超大规模算力基础设施。

它支持多品牌加速卡、主流计算生态,已经适配优化 400 多个主流大模型、世界模型等,可用于大模型训练、金融风控、地质能源勘探、科学智能等各种场景。

中科曙光 scaleX 万卡超集群由多个 scaleX640 超节点 ( 单机柜 640 卡 ) 、scaleFabirc 高速网络互连而成,总计拥有 10240 块加速卡,总算力超过 5EFlops ( 500 亿亿次每秒 ) 。

HBM 内存总容量超过 650TB,总带宽超过 18PB/s;片间互连总带宽超过 4.5PB/s,柜间互连总带宽超过 500TB/s。

单个超节点的基本构成是千卡级计算单元,采用 " 一拖二 " 高密架构设计,实现单机柜 640 卡超高速一致性互连,双计算柜则组成 1280 卡计算单元。

散热方面,采用超高速正交架构、超高密度刀片、浸没相变液冷、高压直流供电等多技术融合创新设计,成为业界超高集成度的液冷超节点。

全浸没式相变液冷技术,将服务器完全浸在特制液体中,中间液体冷凝换热装置 CDM 的散热能力高达 1.72MW ( 兆瓦 ) 。

单机柜算力密度相比业界其他超节点最大提升 20 倍,PUE 值低至 1.04。

公开信息显示,中科曙光子公司曙光数创拥有 139 项液冷相关专利,是国内唯一实现大规模商业化液冷部署的企业。

网络方面,中科曙光自研的 scaleFabric 网络芯片可提供 400Gb/s 的超高带宽、低于 1 微秒的端侧通信延迟、260ns 的交换芯片转发延时,超节点间的通信性能达到业内先进水平,相比传统的 InfiniBand 网络提升 2.33 倍。

基于面向大规模组网优化的网络协议、超高交换容量的网络芯片、极致的链路可靠性优化,集群规模得以扩展到 10 万卡以上,同时网络总体成本降低 30%。

优化方面,超级隧道设计实现了芯片级、系统级、应用级的三级协同优化,通过 BurstBuffer、XDS 等技术,大模型训推效率提升 30-40%,GPU 利用率提升最多 55%,同时还有 AI 应用亲和、AI 数据加速。

可靠性方面,一体化、智能化的集群管控,可大大提高 MTBF ( 平均故障间隔时间 ) 、降低 MTTR ( 平均故障修复时间 ) ,集群长期可用性达到 99.99%,平均每 30 天的不可用时间小于 4 分钟。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中科曙光 ai 芯片 华为 摩尔
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论