时代周报 12-26
AI领域也要反“内卷”!对话中科曙光高级副总裁李斌:构建开放算力底座才能实现国产算力集群创新
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文来源:时代周报 作者:管越

" 高速互联网络技术过去几乎被国际厂商垄断,国内代差较大、落后较多,为了突破技术瓶颈,我们默默研发了 3 年,初步有成果才拿出来发布。" 近日,在光合组织 2025 人工智能创新大会现场,中科曙光(603019.SH)高级副总裁李斌接受时代周报等媒体采访时如是说。

李斌所言的 " 成果 ",即中科曙光在本届大会上发布并展出的 Scale X 万卡超集群,这也是国产万卡级 AI 集群系统首次以真机形式公开亮相。

" 当前,这一代产品规格指标、实测性能和稳定性可以对标英伟达当前主力量产产品。" 李斌如是说。

技术难题 " 没有捷径可走 "

在超算领域,集群即一组相互独立的、通过高速网络互联的计算机,单个计算机则是 " 节点 "。

" 当上万甚至上十万芯片组成一个需要协同和紧密耦合的系统时,任何一个小问题都会被放大到整个系统,从而让系统处于不可用的状态。" 谈及超大规模算力集群的研发难点,李斌直言," 难点和挑战还是挺多的 "。

他进一步拆解,超大规模集群的技术难点首先集中在互联网络。随着设备规模扩大,计算效率不能出现明显下降,这就要求互联网络必须具备高带宽、低延迟的核心特质,同时还要保障大规模组网后的可管理性。" 这个网络不是我们传统用到的以太网,而是需要能够实现原生支持的无损网络,它的研发门槛非常高。"

除了网络,建设超大规模集群还面临能耗与能效问题。当前,超大规模算力中心已达到百兆瓦级体量," 预计未来 5 年可能出现吉瓦(10 亿瓦)级算力中心,如何突破用电与冷却技术瓶颈,保障系统高效稳定运行,是行业共同面临的挑战。" 李斌如是说。

协同优化难度则是另一大难关,且需根据应用场景动态调整。" 过去服务科学工程计算时,我们会根据计算、存储、网络及应用算法进行优化。而进入人工智能时代,挑战变得更为严峻。" 李斌解释,一方面,AI 对算力的需求较以往呈指数级增长;另一方面,算力提升速度与数据传输、存储性能提升速度不同步,形成了显著的 " 性能鸿沟 ",导致计算性能无法充分释放。

而上述技术难题,中科曙光是如何攻克的?在李斌看来,中科曙光过去几十年做的事,就是坚持从单点技术打磨做起,将每个细节做到极致,才能保证大规模系统的可靠性," 这件事没有捷径可走。"

据了解,万卡超集群由多个 Scale X640 超节点(单机柜 640 卡)、ScaleFabirc 高速网络互连而成,总计拥有 10240 块加速卡,总算力超过 5EFlops(500 亿亿次每秒);HBM 内存总容量超过 650TB,总带宽超过 18PB/s;片间互连总带宽超过 4.5PB/s,柜间互连总带宽超过 500TB/s。该集群完全践行了开放架构的理念,硬件层面支持多品牌加速卡,软件层面兼容主流计算生态,目前已完成 400+ 主流大模型、世界模型的适配优化。

" 我们不是要做一个封闭的‘算力孤岛’,而是要构建开放的算力底座。" 李斌强调,无论是国产芯片还是国际品牌硬件,无论是通用大模型还是行业专用模型,都能在这个集群上实现高效运行。这种兼容性也让开放生态的价值进一步凸显:不同厂商的产品可以基于统一的算力底座协同工作,无需为适配特定硬件而重复投入研发资源。

建设开放生态打破 " 封闭内卷 "

" 人工智能产业链很长,大家都在做,但是可能都做得不好,不能满足产业发展需求。" 谈及人工智能行业现状时,李斌直言不讳。

他解释,AI 产业链涵盖芯片、系统、框架软件到应用等多个环节,唯有各环节深度协同,才能发挥最大价值。但当前行业内不少厂商试图覆盖全链条,最终导致每个环节都难以做到极致,还形成了多个封闭的小生态。

" 用户夹在多个生态中间很‘痛苦’,虽然国产化是大趋势,但各家产品体验都不够完善,选择成本极高。" 李斌点出的行业痛点,正是中科曙光推动开放生态建设的初衷。" 封闭内卷既无法满足国家对产业发展的需求,产业链上的企业也难以找准自身生存定位。"

李斌表示,中科曙光希望通过开放架构,将自身在各环节积累的技术开放出来,让产业链合作伙伴聚焦自身擅长的领域,协同推进产业发展。

为了让开放架构真正落地,中科曙光发起成立了开放架构联合实验室。" 原来很多中小企业有细分领域的好想法、算法或数据,但没有资源和平台去落地,因为搭建基础平台的成本太高。" 李斌解释,通过开放架构联合实验室提供的现成技术平台与共享资源,中小企业可以专注于自身擅长的细分领域,不用再投入大量成本搭建基础架构," 能把很多原来敢想但没条件做的事情落地 "。

据悉,2025 年 9 月 5 日,依托国家先进计算产业创新中心,中科曙光与 20 余家智算上下游企业共同建设了 AI 计算开放架构联合实验室。

" 开放架构联合实验室会下设多个专项工作组,初期将聚焦芯片间互联、底层软件栈的开放共享与标准制定、硬件架构技术、冷却技术、互联网络等关键方向,后续将根据合作进展拓展更多领域。" 李斌如是说。

谈及未来,李斌仍保持清醒的认知,尽管 scaleX 万卡超集群已实现多项技术突破,但与国际领先水平相比仍存在差距。" 芯片制程工艺等基础领域的差距客观存在,我们需要持续迭代追赶。"

但他对开放生态的前景充满信心:" 人工智能产业的发展从来不是一家企业的独角戏,而是全产业链的协同作战。只有打破封闭壁垒,让每个企业都能在生态中找到自己的位置,国产算力才能真正实现从‘单点突破’到‘集群创新’的跨越,进而更好地满足产业发展的核心需求。"

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

李斌 中科曙光 ai 人工智能 计算机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论