经济观察报 02-12
中科曙光高级副总裁李斌:算力基础设施的成熟标志是“开放”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

2026 年 2 月 5 日,农历腊月十八,在郑州,国家超算互联网核心节点正式上线试运行,在这个节点上,部署了 3 套由中科曙光提供的 scaleX 万卡超集群,最大可对外提供超过 3 万张 AI 加速卡的算力。

通过该核心节点的上线试运行,验证了国产算力基础设施的工程化能力,行业已从早期的单点突破转向了集群创新,并实现大规模的落地部署。

过去几年,人工智能产业的发展对算力提出了极其苛刻的要求,大模型的参数量从亿级向万亿级跃升,带来的直接后果是计算量的指数级增长。

然而,在很长一段时间里,国内算力产业面临着结构性的矛盾,需求侧急需大规模、稳定的算力,供给侧却呈现出严重的碎片化特征。

各家厂商在硬件设计、软件栈和互连协议上自成体系。

这种封闭的技术路线导致了算力资源难以跨平台调度,用户的迁移成本居高不下。这不符合算力作为新型公共基础设施的属性,就像电力系统,如果不同电厂发出的电无法并入同一张网,电力就无法成为驱动工业化的通用能源。

市场需要的是高效、安全、稳定的智能计算基础设施。

中科曙光在 2025 年明确提出了 "AI 计算开放架构 " 的战略方向,这一战略的核心逻辑在于分工与协作。

我们主张建立一个开放的产业格局,让国产芯片、整机、软件和大模型等产业链上下游的企业能够解耦协作。

在郑州上线的 scaleX 万卡超集群,正是这一战略落地的产物。而这套系统的工程化落地需要攻克一系列技术难关,包括软硬件协同优化、高密度集成、高效供电与散热、高速互连扩展、智能运维管理等。

例如,scaleX 万卡超集群采用了超高密度刀片、浸没相变液冷等技术,将单机柜的算力密度提升了 20 倍,同时将 PUE 值(电源使用效率)降低到了 1.04,在同样的空间内,我们能够部署更多的计算资源,同时大幅降低运行成本。

为实现集群系统的综合性能,进行了存、算、传一体化协同设计优化,通过 " 超级隧道 "、AI 数据加速等设计,实现从芯片级、系统级到应用级的三级数据传输协同优化,以高效应对大模型训练时万卡并发读写对带宽的极致需求,提升高通量 AI 推理时的响应速度与结果精准度,并可将 AI 加速卡资源利用率提高 55%。

更为关键的是,这套系统基于开放架构设计。

它能够支持不同品牌的国产加速卡进行异构部署,并在软件层面兼容 CUDA 等主流计算生态。目前,该系统已经实现了超过 400 个主流大模型和世界模型的适配优化。

这种兼容性降低了开发者的使用门槛,让用户拥有了更多的选择权,而不必被单一的技术路线所绑定。

算力设施建设的最终目的,是服务于实体产业,算力的价值,取决于它能否融入产业的作业流程,解决实际问题。

针对超大规模模型训练,万卡超集群可以支持万亿参数模型的整机训练与容错恢复。

面向高通量推理场景,超集群已服务于多家头部互联网用户的核心智能化业务,并通过联合深度优化持续提升推理效能。

在 AI for Science 领域,我们支撑国内某材料研发大模型登顶国际权威榜单,并助力国内顶级科研团队将蛋白质研究效率提升 3 — 6 个数量级。

同时搭配 OneScience 科学大模型一站式开发平台,超集群还能够大幅降低多学科交叉研究的创新门槛。

这些表明,当算力、数据和应用场景真正结合时,技术才能转化为推动经济发展的动能。

展望 2026 年,智能化的浪潮将推动计算产业进入一个新的发展周期。

中科曙光将继续坚持 " 开放 " 的技术路线。我们认为,在当前的产业环境下,只有基于开放的架构、统一的标准,才能有效联动起产业链上下游的企业、高校及科研院所,开展协同技术攻关,构建起具有国际竞争力的产业生态。

为此,我们将重点关注核心部件、整机系统、软件生态及应用服务的全链条创新,致力于解决异构算力的适配难题,提升算力资源的利用效率。无论是面对万亿参数的大模型训练,还是科学计算的复杂场景,我们都将提供成熟、可靠的解决方案。

积力之所举,则无不胜。

2026 年,中科曙光将继续以务实的态度,推动国产智能计算基础设施向着开放、高效、安全的方向演进。

(经济观察报记者 郑晨烨)

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

中科曙光 ai 人工智能 基础设施 郑州
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论