算力内卷时代，“开放架构”万卡超集群为何成刚需？

作者 :Max

现如今，要做一个 AI 大模型需要准备什么？这背后可能上百个技术专家，数以亿计的资金，但最重要的，是需要庞大的算力支持。

有机构曾做了一个统计，要做一个 ChatGPT 级别的 AI 大模型，至少需要 1 万枚英伟达的 H100 加速卡，也可以说，有 1 万卡加速卡才能摸到 Moe 万亿参数自研大模型门槛。

而随着 ChatGPT、文生视频等 AI 应用迅速普及，各行业对算力的需求呈指数级增长。IDC 预测，到 2028 年，中国智能算力需求将达到 2781EFLOPS 规模，年均增长率高达 46.2%。然而，传统的计算集群在规模扩大到数千张卡之后，就会遇到难以逾越的瓶颈。

如何‌提升算力资源利用率与降低运营成本？如何让头部之下的企业也能用得起大规模算力？在这背后，" 万卡超集群 " 成为了这个时代答案。

2025 年 12 月 18 日，在光合组织 2025 人工智能创新技术大会（HAIC2025）上，中科曙光发布了曙光 scaleX 万卡超集群系统，引起了市场广泛关注。

"scaleX 万卡超集群，是曙光发挥大型计算机系统研制经验优势，面向万亿参数大模型、科学智能等复杂任务场景打造的大规模智能算力基础设施方案 "。中科曙光高级副总裁李斌表示，面对人工智能基础设施对性能、效率、可靠性、可扩展性等方面的极致需求，scaleX 万卡超集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破，部分技术与能力已超越海外将于 2027 年推出的 NVL576。

据了解，此次曙光 scaleX 万卡超集群发布，可以说是国产万卡级超集群真机的首秀，这一系统由 16 个超节点通过自主研发高速网络连接而成，可支持 10240 张 AI 加速卡协同工作，其亮相标志着国产大规模算力集群技术进入新阶段。

" 万卡超集群 " 为何成为时代刚需？

根据中国互联网络信息中心统计，截至 2025 年 6 月，中国生成式人工智能用户规模达 5.15 亿人，较 2024 年 12 月增长 2.66 亿人，用户规模半年翻番，普及率为 36.5%。这些用户中，超过三分之二（67.7%）人数每天都会使用 AI 生成，AI 使用量正在激增。

在算力领域，这就好比每天有数百万辆汽车同时上路，原来的双车道乡村公路显然无法承受。传统计算集群在应对千卡、万卡规模任务时，出现了明显的 " 交通拥堵 "：通信延迟高、并行效率低、能耗成本急剧攀升。

另一方面，AI 厂商们为了应对时代需求，基础大模型的参数规模不断膨胀，模型训练、精调过程所需的数据量也在快速增长，同时，在自动驾驶、工业制造、生物医药等领域的 AI 应用率提高，涵盖文本、图像、视频等多模态数据处理任务，这些都需要更强的算力性能和效率支撑。在这一背景下，" 万卡超集群 " 应运而生。

什么是 " 万卡超集群 "？简单来说，其就是由超过一万张加速卡（如 GPU、TPU 或专用 AI 芯片）组成的高性能计算系统，主要用于加速人工智能模型的训练和推理。

具体从曙光 scaleX 万卡超集群系统的技术特点上看，主要有以下优势：

优势 1：全球首创单机柜级 640 卡超节点。scaleX 万卡超集群由 16 个曙光 scaleX640 超节点通过 scaleFabric 高速网络互连而成，可实现 10240 块 AI 加速卡部署，总算力规模超 5EFlops。scaleX640 采用超高密度刀片、浸没相变液冷等技术，将单机柜算力密度提升 20 倍，PUE 值低至 1.04。

优势 2：自主研发原生 RDMA 高速网络。曙光 scaleFabric 网络，基于国内首款 400G 类 InfiniBand 的原生 RDMA 网卡与交换芯片，可实现 400Gb/s 超高带宽、低于 1 微秒端侧通信延迟，超节点间的通信性能达到业内领先水平，充分释放万卡超集群算力，并可将超集群规模轻松扩展至 10 万卡以上，相比传统 IB 网络提升 2.33 倍，同时网络总体成本降低 30%。

优势 3：存、算、传紧耦合深度优化。通过 " 超级隧道 "、AI 数据加速等设计，实现从芯片级、系统级到应用级的三级数据传输协同优化，使存力平台高效应对大模型训练时万卡并发读写带宽极致需求挑战，并可将 AI 加速卡资源利用率提高 55%。

优势 4：超集群数字孪生与智能调度。通过物理集群数字孪生，实现故障定位、修复等全流程可视化智能管理；智能化运维平台可支撑集群长期可用性达 99.99%；智能调度引擎可管理万级节点、服务十万级用户，支持每秒万级作业调度。

开放架构，助力国产 AI 生态发展

作为 "AI 计算开放架构 " 最新重磅成果，scaleX 万卡超集群可支持多品牌加速卡以及主流计算生态，并实现 400+ 主流大模型、世界模型等适配优化。

据了解，"AI 计算开放架构 " 由中科曙光协同 20 多家 AI 产业链企业共同推出，以共享若干关键共性技术能力，依托系统工程思维推进智算集群创新。通过 scaleX 万卡超集群，AI 企业可降低智算集群研发门槛，并从技术 " 单点突围 " 走向产业 " 生态共进 "，将开放理念转化为可落地普惠算力。

回到此次 HAIC2025 上，除了曙光 scaleX 万卡超集群系统的首秀发布之外，中科曙光也让市场看到了其在算力行业长期以来的思考。

这种 " 类安卓 " 的开放模式，给予了用户更大的选择权，避免了被单一厂商技术锁定的风险。同时积极兼容主流 AI 开发框架，并致力于推动国产软硬件生态的适配与优化。这降低了开发者和应用迁移门槛，有利于吸引更广泛的生态伙伴共同参与，形成繁荣的产业生态。

另一方面，可以解决芯片与基础软件协同、模型 - 硬件适配优化等难题，破解 " 硬件墙 "" 生态墙 " 壁垒，让算力资源更加 " 普惠化 "。而基于 scaleX 万卡超集群强大性能，其价值最终也会体现在推动实际应用与行业创新上，且在大模型训练与推理、在科学智能、数字孪生与智能制造、金融赋能等应用场景已远超一般人的想象。

结语：

曙光万卡超集群的发布，意义不仅仅在于发布了一款高性能产品，更体现了从硬件堆叠到系统级协同的范式转变。其真正价值在于通过开放架构和软硬一体化设计，让大规模算力从 " 昂贵奢侈品 " 逐渐走向 " 可规模化部署的公共服务 "，为国内 AI 产业生态的自主演进提供了关键支撑。

▼ 往期精彩回顾 ▼

宙世代

一起剪

相关标签