
经济观察报记者 郑晨烨
12 月 20 日,北京中关村国际创新中心,摩尔线程(688795.SH)举办了首届 MUSA 开发者大会,在现场,这家刚登陆 A 股市场的国产 GPU 公司,发布了其最新的全功能 GPU 架构 " 花港 ",以及基于该架构的芯片路线图。
就在这场开发者大会举办的两天前,12 月 18 日,另一家老牌国产算力系统厂商中科曙光(603019.SH),对外发布了名为 "scaleX" 的万卡超集群系统。
在 2025 年即将结束时,国产算力产业链拿出了两份有实质性突破的新成果,同时也不难看出,国产算力的竞争焦点,已经从单纯比拼单张显卡的参数,转移到了如何构建一个能稳定运行的万卡级系统上。
对于正在训练万亿参数大模型的下游客户来说,单张芯片的性能早已不是唯一的考量标准。
当模型参数量突破万亿,单一芯片的物理性能触及瓶颈,算力的提升只能依靠规模堆叠。行业面临的核心问题,变成了如何让一万张计算卡像一张卡一样协同工作。
在 12 月 20 日的发布会上,摩尔线程试图从底层的芯片架构层面解决这个问题。
根据现场信息,其最新的 " 花港 " 架构,最核心的变化在于计算密度的提升与对低精度的支持,摩尔线程官方数据显示,相较于上一代产品,新架构的算力密度提升了 50%,效能提升了 10 倍。
此外," 花港 " 架构还支持从 FP4 到 FP64 的全精度计算,并新增了对 MTFP6、MTFP4 及混合低精度的支持。
基于这一新架构,摩尔线程公布了两款未来芯片的规划," 华山 " 与 " 庐山 "。
" 华山 " 定位为 AI 训推一体芯片,专攻大规模智算,旨在为万卡级智算集群提供算力支撑。" 庐山 " 则专注于高性能图形渲染,官方数据显示," 庐山 " 的 AI 计算性能较前代提升 64 倍,光线追踪性能提升 50%。
从对下一代产品的规划上看,摩尔线程依然继续坚持走 " 全功能 GPU" 的技术路线,即同时覆盖图形渲染与人工智能计算两个市场。
就在摩尔线程发布新架构的前两天,中科曙光也发布了 scaleX 万卡超集群系统,这是国产万卡级算力集群首次以真机形式公开亮相。
与芯片厂商侧重于微观架构的视角不同,中科曙光解决的是算力堆叠后的物理与工程难题。
构建一个万卡集群,最大的挑战不仅在于软件,还需要解决散热、供电与物理空间限制等多重挑战。
当上万张高功率的算力芯片集中在一个数据中心时,产生的热量和消耗的电力是惊人的。
中科曙光 12 月 18 日发布的 scaleX 万卡集群系统,由 16 个 scaleX640 超节点通过 scaleFabric 高速网络互连而成,总计可部署 10240 块 AI 加速卡。
为了解决高密度带来的散热问题,该系统采用了浸没相变液冷技术。
官方数据显示,scaleX 万卡集群系统单机柜算力密度相比业界提升了 20 倍,PUE(能源使用效率)值降至 1.04。
这意味着,在同等的物理空间和电力供给下,液冷技术能够容纳更多的算力密度。对于寸土寸金的数据中心而言,这直接关系到运营成本和算力部署的上限。
在解决了 " 热 " 和 " 电 " 的问题后,横亘在万卡集群面前的另一道墙,是 " 网 "。
在分布式计算中,当 GPU 数量增加到一定规模时,节点间的通信延迟会成为拖累整体性能的短板,如果网络带宽不够,计算卡计算得再快,也得停下来等待数据传输,这就是业内常说的 " 通信墙 "。
两家公司也都拿出了针对这一问题的解决方案。
摩尔线程在 " 花港 " 架构中集成了新一代异步编程模型,并通过自研的 MTLink 互联技术,宣称支持十万卡以上规模的智算集群扩展;而中科曙光则发布了 scaleFabric 网络,基于国内首款 400G 类 InfiniBand 的原生 RDMA 网卡与交换芯片,实现了 400Gb/s 的带宽与低于 1 微秒的端侧通信延迟。
除了训练端的竞赛,大模型应用落地带来的推理需求,也成为两大厂商关注的另一个重点。
随着 DeepSeek 等国产大模型的参数量达到 671B(6710 亿)级别,如何在国产硬件上跑通这些 " 庞然大物 ",成为检验硬件厂商成色的试金石。
摩尔线程在现场展示了其与硅基流动合作的测试数据:在 DeepSeek R1 671B 全量模型上,其 MTT S5000 单卡 Prefill(预填充)吞吐量突破 4000 tokens/s,Decode(解码)吞吐量突破 1000 tokens/s。
简单来说,国产 GPU 在应对千亿参数大模型的复杂推理任务时,已经具备了跑通全流程的吞吐能力。
硬件的堆叠终究只是基础,算力的释放最终依赖于软件生态的成熟度。
摩尔线程在大会上宣布其 MUSA 统一架构升级至 5.0 版本,并披露了核心计算库 muDNN 在 GEMM(通用矩阵乘法)与 FlashAttention(闪电注意力机制)上的效率超过 98%。
在硬件规格逼近国际主流水平后,国产厂商的研发重心正在向软件栈的优化转移,试图修补长期以来在 CUDA 生态面前的短板。
与此同时,中科曙光方面也强调了其系统的兼容性。
scaleX 万卡超集群支持多品牌加速卡,并已完成 400 余个主流大模型的适配优化,这种开放架构的策略,亦反映了系统厂商在多芯片共存时代的生存逻辑,不绑定单一芯片,而是提供一个能够兼容不同国产算力的底座。


登录后才可以发布评论哦
打开小程序可以发布评论哦