南风窗 6小时前
重回世界第一,中国亮出底牌
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

唯物的中国芯片产业深度观察

6 月 23 日,第 67 期全球超级计算机 500 强榜单在德国汉堡国际超算大会发布,首次入榜的中国超级计算机 " 灵晟 " 位列榜首。自 2017 年 " 神威 · 太湖之光 " 夺冠,时隔九年,中国超级计算机再次排名全球第一。

" 九年后再次夺冠 " 的事实,隐藏着一个秘密。2021 年开始,出于防范美国技术制裁、保护关键技术等考量,中国停止向世界 500 强榜单提交最新的 E 级(百亿亿次)数据。为何今年再度 " 提交数据 ",不怕公开实力?既然公开实力," 灵晟 " 到底有什么优势?

更重要的,排名是小事," 底牌 " 是大事。

01
重回第一

毫无预兆,6 月 23 日,中国超级计算机 " 灵晟 " 在世界超算大会(ISC)公开亮相。" 灵晟 " 是世界首台持续性能超 2 EFlops 的超算系统,从芯片到系统全部由中国自主研制,宣告 " 中国超算重回世界之巅 " ——硬生生把美国引以为傲的 "El Capitan" 挤到了第二名。

近十几年,顶尖超级计算机的竞争,一直围绕中美两国展开。

中国跻身世界第一梯队是在 2008 年。曙光 5000A 研制成功,落户上海超算中心,运行了极其复杂的 " 全基因组关联分析 " 和 " 全球气候精细化模拟 ",一举冲进全球前十(第十名)。在工业制造、气象预报里 " 满载负荷运算 " 时,超算大会的与会者第一次为中国团队起立鼓掌。

2006 年 1 月 15 日,中国 " 科技创新重大成就展 " 上展示曙光 4000A 超级计算机 / 图源:视觉中国

两年后,天河一号 A 就夺下了 " 世界第一 " 的宝座,把 " 梯队 " 两字扔在身后。它是世界上第一个证明 "CPU+GPU" 异构架构可以登顶世界第一的超级计算机。它使用了 14336 颗 Intel Xeon CPU 和 7168 块 NVIDIA Tesla M2050 GPU。

2010 年 11 月,天河一号 A 以每秒 2566 万亿次的惊人速度,挤下了美国蝉联多年的霸主 " 美洲虎 ",为中国超算夺得第一个世界第一。

天河一号 A 成功的最大意义,是向全世界证明了 CPU 负责复杂逻辑控制,加 GPU 负责大规模并行计算的异构混合架构是行得通的,且大幅节约能耗。这一成功彻底改变了超算的发展路线。

在此之后,美国和欧洲的顶级超算(如 Summit、Frontier、El Capitan)开始全面转向 CPU 加 GPU 架构。而正是这种异构计算硬件生态的成熟,间接为后来 2012 年起的深度学习爆发(如 AlexNet 首次用 GPU 训练)提供了坚实的硬件演进基础。

" 天河一号 " 千万亿次超级计算机系统 / 新华社发(何书远摄)

天河一号 A 夺冠后,美国迅速抢回第一名。而谁也没想到,2013 年天河二号横空出世,比第二名快了近一倍。天河二号的实力有多恐怖呢?它在世界第一的位置上坐了三年。

这回美国政府坐不住了。2015 年,美国商务部突然抛出 " 大招 ":禁止英特尔向中国四家超算中心出口高性能 Xeon 芯片。美国以为,掐断了芯片供应,天河二号无法升级,中国超算就会就此瘫痪。结果,这场自以为精准的 " 技术封锁 ",让中国超算走向了另一条路。

仅仅一年后,2016 年," 打脸 " 迅速来临。在德国法兰克福的世界超算大会上," 神威 · 太湖之光 " 跃升世界第一,速度是天河二号的两倍多。最让美国人震惊的是,打开机柜,找不到一颗英特尔或任何美国的芯片,内部 40960 颗核心芯片 " 申威 26010" 全部由中国自行研制。

一名研发工程师展示 " 神威 · 太湖之光 " 所使用的 " 申威 26010" 众核处理器(6 月 16 日摄)。该处理器采用 64 位自主申威指令系统,峰值性能 3.168 万亿次每秒,核心工作频率 1.5GHz。" 神威 · 太湖之光 " 里安装有 40960 个这样的处理器 / 图源:新华社

从 2018 年开始,美国凭借 "Frontier" 和 "El Capitan" 重新霸榜,并对中国实施了更严酷的制裁,不仅将更多中国超算实体企业列入黑名单,甚至限制有关论文发表。

2021 年,中国已经建成了至少两台 E 级超级计算机,但选择不向 TOP500 递交跑分成绩。2023 年,中国彻底停止向 TOP500 提报新超级计算机。

在外人看来,中国超算 " 沉寂 " 了。

直到 2026 年 6 月 23 日," 灵晟 " 超级计算机迎来了全栈软件、高速互连网络、CPU 架构上的全面突破,令中国超算时隔九年重回第一。这证明中国有能力在完全独立的生态里,自主建起一座计算的最高峰。

02
定心丸

中国超算能在一片封锁中登顶,并非一日之功。从之前 " 深藏功与名 " 到如今的王者归来,背后藏着一场精密的 " 阳谋 "。然而,这场 " 阳谋 " 是由一位美国人揭开的。2026 年,全球超算排行榜即 TOP500 的 " 掌门人 "、美国图灵奖得主杰克 · 唐加拉低调访问中国。他的目的地,是地处中国科技最前沿的国家超级计算深圳中心。

由于美国长期技术禁运、配合实体清单制裁,中美超算界已经陷入数年 " 冷战 " ——中国不再提交成绩,美国在榜单上 " 独孤求败 "。

唐加拉本以为此行只是普通的学术交流,直到深圳中心的科学家给他展示了 " 灵晟 ",比当今世界冠军 El Capitan 快 20% 以上。更不可思议的是,这台计算机没有一颗美国芯片,纯靠国产自研的 LX2 CPU 架构跑出了世界第一。

2026 年 6 月 23 日,德国汉堡 ISC2026 大会发布全球超算 TOP500 榜单:全国产自主研制的 " 灵晟 " 超级计算机登顶全球超算 TOP500/ 图源:国家超级计算深圳中心

唐加拉质疑,你们敢提交给 TOP500 吗?不怕引来美国更疯狂的制裁吗?

中国科学家告诉他,这台系统在建造时,并没有使用国家专项战略资助,主要由地方非涉密的机构和企业牵头,针对中国大湾区活跃的商业和科研需求进行市场化建设。

也就是说,灵晟采用的是完全市场化与开放式的运营架构。它落户在以搞经济、搞科技创新闻名的深圳,服务的是地球系统精密模拟、人类全脑仿真、材料科学、生物医药以及大湾区企业的大模型推理。它既不涉及任何军工机密,也没触碰任何涉密网络。

既然灵晟完全符合 TOP500 的标准,那为什么不大大方方地申报,去赢取属于中国科学家在学术和技术上应有的专业认可呢?

回到美国的唐加拉,立刻在一份关于 " 灵晟 " 系统的详细行业报告中,写下了相关 " 调研 " 记录。他认为," 灵晟 " 让世界看到了超算通向 "AI 为科学 " 的新型系统架构的希望之光。

深圳超算中心也借此机会,递交了数项基于该系统的顶尖应用成果,全面角逐超算界 " 奥斯卡 " ——戈登 · 贝尔奖。他们的计划是,在西方的规则里,用纯自研的国产技术,正大光明地拿回世界第一。

第 67 期全球超级计算机 500 强榜单在德国汉堡国际超算大会的颁奖仪式 / 图源:国家超级计算深圳中心

此外,中国超算此时再度竞逐 " 世界第一 ",也有其他考量。

一是芯片底牌已截然不同。2021 年前后,中国超算仍有部分核心零部件依赖海外,或者处于从进口向国产过渡的脆弱期,参与排名容易成为美国 " 按实体清单精准制裁 " 的靶子。现在," 灵晟 " 已经实现了从国产处理器到高速互连网络的全自主可控闭环。

既然底牌已经全部换成了国产技术,中国超算也就没有了后顾之忧。

二是事关真金白银的国际商业竞争。过去,超算主要是国家实验室里用来算核武器、看天气预报的 " 国之重器 "。但是,近年超算已经变成了全球 AI 大模型训练、生物医药、新能源研发的 " 通用生产力 "。中东国家、东南亚的企业、欧洲的科研所,都需要买算力。

如果中国超算一直 " 隐姓埋名 ",别人做生意、买设备时心里就会犯嘀咕:这东西到底行不行?

TOP500 榜单是国际算力市场上的金字招牌," 灵晟 " 的高调夺冠,可以给潜在客户吃下一颗定心丸。

03
" 灵 " 在何处

" 灵晟 " 领先其他超级计算机,靠的是过硬性能。它实测持续双精度浮点性能达到 2.198 EFlops(每秒 219.8 亿亿次),是全球首台持续性能突破 2 EFlops 大关的超算系统。全系统由 20480 个计算节点组成,拥有超过 1300 万个 CPU 内核。总功耗约为 42.2MW,能效比为 52.07 GigaFLOPS/W,首创 100% 全液冷散热机柜。

它的核心底座是全自研的 LX2 处理器。其设计打破了目前欧美超算普遍依赖 CPU 加独立 GPU 的传统异构路线,而是采用纯 CPU 加片上多精度矩阵加速的硬核堆叠设计路线。

它有超高单核密度,每一颗 LX2 芯片内部由两个计算芯片拼接而成,单颗 CPU 拥有 304 个核心(主频 1.55GHz)。

" 灵晟 " 超级计算机 / 截图自新华社

要问 " 灵晟 " 到底强在哪里,其实,它的强大并非靠堆叠算力,而是靠架构创新、超高带宽、顶级网络互连以及高能效组合完成的。

首先是首创 " 三算合一 ",LX2 芯片将 " 矩阵加速任务 " 内嵌进 CPU 内部。这使它不需要独立 GPU 就能在传统科学、工程仿真、以及智能 AI 计算之间自由切换,实现 " 三算合一 "。

其次是打破 " 内存墙 " 制约,带宽提升 10 倍。很多超算空有高算力,但芯片常常因为等数据而 " 饿死 "。LX2 首次集成了国产 HBM 芯片,将内存与 CPU 直接封装在一起。相比传统 CPU,其内存带宽暴增 10 倍,在面对海量、高并发的地球精密模拟、药物筛选等需要频繁读取数据的任务时,运行效率极高。

再次 " 灵启 " 网络支持 10 万节点的组网能力。要让 1300 多万个计算核心同步,网络是最大瓶颈。灵晟匹配了自主设计的灵启高速互连网络。该网络采用 4 层 Fat Tree(胖树)架构,全网双向带宽超过 3.5 Pb/s,单跳延迟低至 1.07 微秒。

它能稳定支持多达 200 万个端口、10 万个节点的超大规模组网,使得全机在大规模并行环境下的平均扩展效率达到了 84.4%。

LX2 高性能 CPU 架构示意

虽然 " 灵晟 " 为了兼顾传统科学计算和美国 GPU 垄断而采用了全 CPU 架构,在纯低精度 AI 大模型跑分上略逊于美国专门堆叠 GPU 的系统,但这恰恰展现了中国科学家的战略智慧——在高端 GPU 被死死封锁的极限环境下,中国用纯国产 CPU 的架构创新与软硬件极致优化,开辟出了一条不依赖美式 GPU 的全新道路。

这也证明,中国在传统超算赛道上,依然稳稳 " 站在 " 世界之巅。

总之,中国超算之前 " 退隐 " 是为了积蓄力量,苦练内功,防范制裁;如今高调 " 复出 ",是因为国产自研的技术路线已经完成,中国不再需要通过 " 隐藏实力 " 来保护产业链。

而且,杰克 · 唐加拉在报告中也指出,这种 " 不依赖 GPU" 的全新系统,为全球超算界在后摩尔时代提供了一个极具参考价值的 " 中国方案 "。

首图为国家超级计算深圳中心内的 " 灵晟 " 超级计算机(6 月 26 日摄),新华社记者梁旭摄,封面为 AI 创意图(依一制图)

评论
Joeywu
5小时前
这个是不是和苹果ultra系列一样的逻辑。多芯片内部并连,形成芯片集群。
要来点叮当汁吗
3小时前
这纯粹就是拿能效比换算力啊[笑哭],对比之下,英伟达H300的能效比是52T FLOPS/W,也就刚好是咱们这台超算的1000倍,换句话说这就是拿1000倍的电量消耗换同样的算力[笑哭]…这路线感觉还不如用华为摩尔这类国产显卡整呢[笑哭][笑哭][笑哭]
苹果X
4小时前
中国领先用于科学研究是好事,希望继续研发新技术。
不与蠢人争执
4小时前
美国的优势是芯片,中国的优势是电力。
大家都在看