极果 昨天
没用一块GPU!国产超算靠自研CPU干翻美国,重返全球第一
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

中国芯片 " 逆袭 ",时隔九年重返全球第一!

近日,最新全球超算 TOP500 榜单揭晓,中国 " 灵晟 " 拿下第一,每秒跑到 219.8 亿亿次,是全球超算第一次冲破 2EFlops 的算力天花板。

先科普下,全球超级计算机 500 强榜单由国际组织 "TOP500" 编制,约每半年发布一次,算是全球超算界的 " 奥斯卡 "。中国超算上一次登顶,还得追溯到 2017 年的 " 神威 · 太湖之光 "。

时隔九年,中国超算重回世界巅峰。

从太湖之光的每秒 9.3 亿亿次,干到了灵晟的每秒 219.8 亿亿次,性能提升了超过 23 倍。

消息一出,国内网友直接沸腾。有人自豪地表示:咱不争第一,不代表没有第一。

更硬核的是,这次全是国产芯,谁也卡不住。

那么,在高端 GPU 被全面断供的今天,中国超算是怎么做到的?

带着这个疑问,咱来拆一拆灵晟背后的技术密码。

先看硬实力。灵晟由国家超级计算深圳中心研制部署,搭载国产 LX2 处理器,这颗芯片基于 ARM 架构,每颗集成 304 个核心。整个系统由 20480 个计算节点,加起来近 245 万个 CPU 核心,相当于把 24 万多台高性能电脑绑在一起干活。

那么,它跑起来有多快呢?" 每秒 2.198 百亿亿次 " 这个数字听起来有点抽象。打个比方:全世界 70 亿人,每人拿个计算器不停按,要整整十年才能赶上它一秒的工作量。

这个速度,直接把长期霸榜的美国 " 酋长岩 " 挤了下去,性能领先超过 20%。

更硬核的是,它没用一块 GPU 加速卡。

当前主流超算普遍走 "CPU+GPU" 异构路线,CPU 负责调度,GPU 负责算力。行业也早有共识:论并行计算,GPU 天生比 CPU 强。

但灵晟没按这个剧本走。它是纯 CPU 同构架构,整机搭载约 4.7 万颗国产 LX2 处理器,完全不依赖任何国外 GPU。

别人用显卡堆算力,我们自己造的 CPU 来干同样的事,而且干成了!

而真正让外界震撼的,是全栈国产。整个系统的心脏是国产 LX2 处理器,它基于 ARMv9 架构,每颗集成 304 个核心,全系统近 4.7 万颗处理器、加起来超过 245 万个 CPU 核心。每个核心支持 ARM SVE 和 SME 可伸缩扩展,能同时处理 FP64 科学计算和 BF16、INT8 等 AI 数据格式,这正是 " 超智融合 " 的硬件根基。

存储方面,LX2 集成了首颗国产 HBM 高带宽内存,带宽达 4TB/s,较传统 CPU 提升 10 倍,同时配合最大 256GB 的 DDR5 内存,由内置 SDMA 引擎智能调度数据。HBM 此前几乎被三星、SK 海力士垄断,国产化本身就是一枚重磅信号。

互联和系统层面,自研 " 灵启 " 高速互联网络撑起了这座超算的骨架,支持 200 万个端口、10 万节点组网,每节点带宽 1.6Tb/s。操作系统跑的是国产麒麟,散热采用 100% 全液冷方案,能效比达 51-52GFlops/W,整机功耗约 42.2MW。

说到底,高端 GPU 买不到,英伟达 CUDA 生态的路也走不通,那就不走了。灵晟从芯片到网络到系统,彻底甩开了对国外加速器的依赖。这是一个真正的、从硬件到软件的全栈式突破。

纵观中国超算史,曾多次登顶世界第一,却屡遭美国 " 拉黑 ",超算中心、研发企业被列入实体清单,高端芯片和互联器件供应被切断。

过去,国内部分超算仍存海外技术依赖,一旦高调上榜就容易引来精准打压。灵晟登顶证明了一件事:封锁,堵不死中国的路。在高端 GPU 被禁运的情况下,中国超算硬是蹚出了一条自己的路。

这条路不一定是最优解,但它证明:没有英伟达,照样造出世界最快的计算机。与其说这是 " 超越 ",不如说这是 " 不被卡死 "。

而且灵晟不是摆设,已经在实实在在干活了,天气预报、飞机火箭设计、新药研发、AI 大模型训练,这些关乎国家长远发展和科技前沿的大事,现在都有了更强大、更安全、完全自主可控的算力兜底。

灵晟只是一个节点,不是终点。封锁,挡不住创新。

本文由极果用户极果原创

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gpu 美国 太湖 芯片 超级计算机
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论