智东西 5小时前
当马斯克OpenAI算力军备赛打响,中国最大国产AI算力池来了!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西(公众号:zhidxcom)

作者 | 李水青

编辑 | 漠影

智东西 2 月 6 日报道,昨日,由中科曙光提供的3 套 scaleX 万卡超集群系统,在国家超算互联网核心节点同时上线试运行。

这是国内第一次在国家级算力枢纽节点上,同步部署并实际投入运营 3 套万卡级 AI 超集群,一举成为全国首个实现超 3 万卡部署、且已进入实际运营阶段的最大国产 AI 算力池

该算力池覆盖万亿参数大模型训练、高通量推理、AI for Science等当前最重型、最前沿的大规模 AI 计算场景,并通过国家超算互联网平台对外提供统一调度与服务。

放在全球背景下,这一节点的上线,恰好发生在 AI 算力军备竞赛白热化的时间窗口。

不久前,埃隆 · 马斯克刚刚宣布,xAI 用于训练 Grok 的 "Colossus 2" 超级计算机投入运行,成为全球首个吉瓦级训练集群,并计划在数月内继续扩容;OpenAI则斥资百亿美元,联合 AI 芯片企业 Cerebras 部署 750 兆瓦级晶圆级系统,试图打造全球最大高速 AI 推理平台 ……

在海外资本与科技巨头不断 " 堆算力 " 的同时,国家超算互联网核心节点三套万卡集群同步落地,以独有的工程化、体系化方式,打造国家超算互联网中一颗强劲的 " 动力心脏 "。

一、从真机亮相到规模落地:不到两个月完成算力跨越

时间回溯到 2025 年 12 月,在昆山举行的光合组织 2025 人工智能创新大会(HAIC2025)上,作为全球领先的大规模智能计算系统,中科曙光 scaleX 万卡超集群首次以真机形式展出,引起行业广泛关注。

当时外界更多将其视为一次技术展示:展示国产万卡集群在超节点架构、高速互联、能效控制等方面,已经具备与国际同类路线同台竞争的能力。

但不到两个月后,scaleX 万卡超集群就完成了从 "真机展示" 到 "落地国家核心节点试运行" 的关键跨越——且不是一套,而是三套同步部署、同时上线。

这一速度背后,体现的是工程化能力的集中释放。

三套万卡集群同步部署,意味着要在极短时间内,完成从设备交付、机房适配、供配电与散热系统建设,到网络调通、软件栈部署、调度系统联调,再到稳定性验证与试运行的完整链路。任何一个环节出现瓶颈,都会放大为整体延误。

这也意味着,万卡集群不再是 " 定制化工程 ",而已经具备可复制、可规模交付的能力

值得一提的是,该核心节点并非孤立存在。作为国家超算互联网的重要枢纽,该核心节点承载了中国最大的国产 AI 算力资源池,其上线也意味着国产万卡集群正式进入国家级算力体系的 " 主干网络 "。

二、揭秘技术底座:万卡超集群如何真正 " 跑起来 "

万卡级 AI 集群,从来不是 " 把卡堆在一起 " 这么简单。

在规模跨过万卡门槛后,系统面临的挑战会呈指数级放大,核心集中在三件事上:算力能否充分释放、系统能否长期稳定运行、资源能否被高效调度使用。

1、高速互联:决定万卡算力是否 " 有效 "

在大模型训练和推理场景中,节点间通信往往成为性能瓶颈。算力规模越大,通信效率对整体性能的影响就越致命。

scaleX 万卡超集群采用的是中科曙光自主研发的 scaleFabric 高速互联网络。该网络基于国内首款 400G 类 InfiniBand 原生 RDMA 网卡与交换芯片,可实现 400Gb/s 带宽、端到端通信延迟低于 1 微秒。

这一网络不仅支撑万卡级集群高效运行,还在架构上预留了向十万卡、百万卡规模平滑扩展的能力。相较传统 IB 网络方案,其通信性能提升超过 2 倍,同时网络总体成本下降约 30%,为后续更大规模集群建设提供了现实可行的路径。

2、高密度供电与散热:平衡算力密度与能效,能效比创新高

算力规模上去之后,真正考验系统工程能力的,往往是 " 物理世界 ",供电和散热成为不可忽视的挑战。

scaleX 万卡超集群采用了全球首创的高密度单机柜设计。通过超高密度刀片架构与浸没相变液冷技术,单机柜算力密度提升约 20 倍,整体 PUE 值低至 1.04。

这意味着,在同等机房条件下,可以部署更高密度的 AI 算力,同时将能耗控制在可持续范围内。这不仅直接影响运营成本,也决定了万卡集群是否具备长期稳定运行的现实基础。

3、统一调度与运维:智能管理万级节点、服务十万级用户

万卡集群的价值,最终取决于是否 " 好用 "。

在核心节点,三套万卡超集群并非各自独立运行,而是通过统一的调度与管理体系,对外提供算力服务。系统引入物理集群数字孪生,实现故障定位、资源状态、运维流程的可视化管理;智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度,长期可用性达到 99.99%。

这种 " 数字孪生 + 智能调度 " 的组合,使得万卡集群不再只是 " 硬件资产 ",而是真正融入国家超算互联网体系的算力中枢。

三、连接 30+ 算力中心、服务超 100 万用户,打造国家级 " 算力样板间 "

如果说万卡超集群解决的是 " 算力从哪来 ",那么国家超算互联网解决的,则是 "算力如何被用起来"。

由官方数据可知,截至 2025 年底,国家超算互联网平台已连接全国 30 余家超算与智算中心,服务 100 多万用户,应用商品超 7200 多个,单日处理作业峰值 103 万个,迄今已累计支撑运行 1.96 亿次作业,致力于有效联动中国乃至全球算力资源与应用需求。

在这一体系中,本次新上线的核心节点角色尤为特殊。

一方面,它以三套万卡超集群构成全国最大的国产 AI 算力资源池,为高强度 AI 任务提供稳定算力供给;另一方面,它也承担着 "算力样板间" 的示范功能——验证国产万卡集群在真实业务负载下的可用性、稳定性与经济性。

从应用层看,该算力池已全面覆盖万亿参数模型训练、高通量推理、AI for Science 等关键场景。在科研领域,支撑材料科学、生命科学等方向的大模型计算;在产业侧,面向模型企业、互联网公司和行业用户,提供统一入口的普惠算力服务。

更重要的是,其背后采用的,是中科曙光提出并协同 20 多家 AI 产业链企业大力推动的 "AI 计算开放架构" 理念。

开放架构强调打破单一生态绑定,支持多品牌 AI 加速卡混合部署,全面兼容 CUDA 等主流软件生态,并已完成 400 余个主流大模型、世界模型的适配优化。对开发者而言,这意味着迁移成本更低、选择空间更大;对整个产业而言,则有助于推动国产算力的一体化协同。

这也使国产万卡集群的发展路径,从 " 单点技术突围 ",逐步走向 " 产业生态共建 "。

结语:AI 基建竞争,正在从 " 拼建设 " 走向 " 拼运营 "

随着核心节点上线,我国 AI 基础设施建设正在进入一个比拼运营的新阶段。

算力竞争不只是 " 有没有万卡 ",更是谁能规模化部署、稳定运营、并真正支撑应用落地。在全球 AI 算力军备竞赛持续升温的背景下,国产算力正通过日益成型的国家超算互联网完成一体化调度,最终实现工程可落地、运行可持续、生态可协同。

" 中国最大 " 只是起点," 以国产算力服务好全球用户 " 才是更远的星辰大海。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

互联网 中科曙光 埃隆马斯克 超级计算机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论