量子位 昨天
摩尔线程的野心,不藏了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

上市后的仅 15 天, 摩尔线程,便将首个大动作直接指向了生态的核心——开发者。

在这次首届、也是国内首个聚焦全功能 GPU 的开发者大会中,围绕着MUSA这个关键词,新品可谓是目接不暇:

一个全新 GPU 架构:花港,密度提升 50%,效能提升 10 倍。

三款新芯片:华山、庐山、长江,分别聚焦 AI 训推一体、图形渲染和智能 SoC。

一个智算集群:夸娥万卡集群(KUAE2.0),定位国产自主研发的 AI Foundry。

两款硬件产品:专为开发者打造的 AIBOOK 和 AICube。

这并非零散的产品更新,而是摩尔线程用一套从云到端、从算力到生态的组合拳。

在长达 2 个多小时的发布中,最直观的感受就是,摩尔线程,已经把国产 GPU推向了下一个 level。

接下来,我们就从最最最核心的全新 GPU 架构花港为起点,对此次开发者大会一探究竟。

MUSA,已经成了全功能 GPU 架构的代名词

什么是 MUSA?

它的全名叫做Meta-computing Unified System Architecture,是摩尔线程自主研发的元计算统一计算架构。

该怎么理解?可以说,从芯片架构、指令集、编程模型,到软件运行库及驱动程序框架,都属于 MUSA 的范畴。

历经五年的发展,MUSA 已经完整定义了全功能 GPU 从芯片设计到软件生态的统一技术标准,并且支持 AI 计算、图形渲染、物理仿真和科学计算、超高清视频编解码等全场景高性能计算。

若是纵观 MUSA 硬件架构这几年的迭代,从苏堤、春晓、曲院,再到平湖,每一次的升级都是在探索着 GPU 算力的边界。

最新发布的第五代全功能 GPU 架构花港,亦是如此:

算力密度提升 50%:在同等芯片面积下,可部署更多计算单元;

计算能效提升 10 倍:单位瓦特性能大幅优化,为大规模智算集群提供绿色底座;

新增 FP4 计算:从 FP4、FP6、FP8 到 FP16、BF16 乃至 FP64,实现全精度端到端计算,覆盖 AI、HPC、图形等全场景需求;

支持十万卡集群:通过 MTLink 高速互联,为超大规模模型训练铺平道路。

尤为值得关注的是,花港在低精度计算上的深度优化。架构新增了 MTFP6/MTFP4 及混合低精度端到端加速技术,专为未来 AI 主流场景——低比特训练与推理而生。

在 Attention 机制的关键路径上,花港原生支持矩阵 rowmax 计算,大幅提升混合精度 SIMT 吞吐量,并内置在线量化 / 反量化、随机舍入等硬件加速能力,为下一代 Transformer 引擎(如 MT Transformer Engine)提供底层支撑。

如果说硬件架构是能力的基石,那么软件栈,就是将这些能力交到开发者手中的具体路径。

除了架构本身之外,摩尔线程这次还同步推出了 MUSA 软件栈 5.0,构建从编译器、算子库到 AI 框架的全栈工具链:

AI 框架广泛适配:除 PyTorch、PaddlePaddle 外,新增对 JAX、TensorFlow 的支持;

训练生态扩展:在 Megatron、DeepSpeed 基础上,新增强化学习训练框架 MT VeRL;

推理引擎丰富:深度优化自研 MTT 推理引擎与 TensorX,同时适配 SGLang、vLLM、Ollama 等新兴推理框架;

核心库极致优化:muDNN 实现 GEMM/FlashAttention 效率超 98%,通信效率达 97%,编译器性能提升 3 倍;

编程语言创新:推出面向 AI+ 渲染融合的 muLang,兼容 TileLang、Triton,原生支持 MUSA C,并发布 GPU 中间表示语言 MTX 1.0,提升开发者调优自由度。

更关键的是,摩尔线程宣布将逐步开源 MATE 算子库、MUTLASS、MT DeepEP 通信库、KUAE 云原生工具包等核心组件,向开发者社区开放底层能力,加速生态构建。

不难看出,MUSA 并未将自身定位为单纯的 AI 加速器,而是以 " 全功能 GPU" 为锚点,将 AI 能力深度嵌入图形渲染、物理仿真、量子计算等高价值垂直场景。

这种从通用底座向产业纵深延伸的架构哲学,使其区别于纯粹的大模型训练卡,而更接近英伟达 CUDA 生态早期 " 以通用可编程性撬动多元应用 " 的战略路径。

可以说,MUSA 不仅是中国首个全功能 GPU 架构,更是对 " 下一代 AI 基础设施应长什么样 " 的一次系统性回答——

它不再只是算力的提供者,而是多模态智能、具身智能乃至物理 AI 时代的关键使能平台。在这一意义上,摩尔线程的架构创新,已不仅是技术突破,更是对未来 AI 产业格局的一次主动定义。

而围绕着新升级的 MUSA,摩尔线程这次还祭出了更多重磅产品。

三个新芯片,两个新硬件,一个万卡集群

首先基于花港架构,摩尔线程发布了两款芯片路线。

第一个便是聚焦在 AI 训推一体及高性能计算的 GPU ——华山

它的核心亮点可以总结为:

全精度支持:从 FP4 到 FP64,覆盖低精度训练与高精度科学计算;

MTFP4/MTFP6 混合低精度加速:Attention 计算从 BF16 向 FP8 甚至 FP6 演进,大幅提升 Transformer 吞吐;

硬件级优化:原生支持矩阵 rowmax 计算、在线量化 / 反量化、随机舍入等算法,专为大模型训练定制;

新一代异步编程模型:支持常驻核函数、线程束特化,极大提升并行效率。

并且从浮点算力、访存宽带、访存容量和高速互联宽带等维度来看,华山正在追赶英伟达的系列产品。

华山的推出,标志着摩尔线程正式具备支撑万亿参数大模型训练的能力,为国产 AI 基础设施补上关键一环。

如果说华山主攻 A 算力,那么接下来的 GPU ——庐山,则专为图形计算而生。

相比上一代产品,其 AI 计算性能提升了惊人的 64 倍,3A 游戏渲染性能提升 15 倍。

庐山引入了AI 生成式渲染架构(AGR)和硬件光追引擎,支持 DirectX 12 Ultimate。这意味着,国产显卡正式迈入 " 光追 +AI 渲染 " 的新范式,不仅仅是 " 算 " 画面,更是 " 生成 " 画面。

除此之外,在端侧,摩尔线程还首次推出了智能 SoC 芯片——长江

据了解,长江芯片不局限于传统 PC 或服务器,而是面向具身智能、车载、AI 计算终端等端侧场景,提供 50 TOPS 的异构 AI 算力。

有了芯片,自然要有承载的载体。

基于长江芯片,摩尔线程这次还发布了两个非常亮眼的硬件产品。

首先就是MTT AIBOOK

这个算力本是专门为 AI 学习与开发者打造的个人智算平台,运行基于 Linux 内核的 MT AIOS 操作系统,具备多系统兼容能力,并预置完整 AI 开发环境与工具链,通过虚拟化和安卓容器,可无缝运行 Windows 与安卓应用。

如此一来,你就可以直接在上面跑大模型、搞 Agent 开发。

MTT AIBOOK 内置的智能体小麦,还支持 2K 高清渲染、本地大模型(如 MUSAChat-72B)、端侧 ASR/TTS,这就让它从工具变成了超级个体助手。

并且 MTT AIBOOK 还预装了智源悟界 Emu3.5 多模态模型,开箱即可文本生图、编辑图像。

除此之外,针对端侧场景,摩尔线程还推出了桌面上的 AI 小钢炮——AICube

它更像是一个高性能的 AI 计算魔方,让开发者在桌面上就能轻松获取算力支持,处理复杂的推理任务。

最后,也是最重磅的——夸娥(KUAE 2.0)万卡智算集群;毕竟在大模型领域,万卡集群是公认的入场券。

摩尔线程此次宣布,其万卡集群在 Dense 大模型上的算力利用率(MFU)达 60%,在 MOE 大模型上达 40%,有效训练时间占比超过 90%。

最硬核的消息是:摩尔线程已完整复现了 DeepSeek V3 的 FP8 训练。 依靠 S5000 对低精度算子的优化,其自研 FP8 GEMM 算力利用率高达 90%。

在这次大会上,摩尔线程还前瞻性地披露了下一代高密硬件基石—— MTT C256 超节点。

这款产品采用了计算与交换一体化的高密设计。它的出现,是为了系统性地提升万卡集群在超大规模智算中心里的能效比和训练效能。

这个量级的表现,意味着它已经具备了正面硬刚国际主流 Hopper 架构 AI GPU 的底气,是未来超大规模大模型训练和实时推理的国产标准答案

并且就在最近,摩尔线程还和硅基流动(SiliconFlow)联合宣布:

基于硅基流动高性能推理引擎,双方已在摩尔线程 MTT S5000 GPU 上成功完成对 DeepSeek V3 671B 满血版大模型的深度适配与性能验证。

在 FP8 低精度推理技术加持下,MTT S5000 单卡实测 Prefill 吞吐突破 4000 tokens/s,Decode 吞吐超 1000 tokens/s,创下当前国产 GPU 在大模型推理场景下的新高。

这一成果不仅刷新了国产 GPU 的推理性能基准,更传递出一个关键信号:

在成熟软件工程体系(如 MUSA 架构与硅基流动推理引擎)的协同优化下,国产算力硬件正从 " 能跑 " 迈向 " 跑得快、跑得稳、跑得值 "。

换句话说:单位算力的有效利用率,正在成为国产 AI 芯片真正落地的关键指标——而摩尔线程,这次交出了一份高分答卷。

生态,生态,还得看生态

在全球算力竞争日益白热化的今天,单一芯片的性能优势已不足以构建护城河。

真正的壁垒,在于软件生态、硬件协同、场景落地与开发者信任的综合能力。

摩尔线程深谙此道,它的选择也非常清晰:不走局部替代路线,而是以 "MUSA 架构 + 国产 GPU+ 全场景产品 " 三位一体,打造一个从底层指令集到上层应用的完整生态闭环。

这不仅包括人才生态,更涵盖繁荣的软件开发生态——从自研编译器、高性能算子库,到对主流 AI 框架的广泛适配,摩尔线程提供了释放算力所需的全套软件工具链;同时,通过 AIBOOK 等面向开发者的硬件入口产品,让开发者能够随时随地接入并高效使用 MUSA 算力,真正实现软硬协同、端云一体的全场景覆盖。

但除此之外,开发者和开发生态,亦是其中非常关键的一环。

这便是摩尔线程打造摩尔学院(MUSA 开发者的成长平台)的原因了。

截止 2025 年 12 月,摩尔学院已经汇聚了 20 万名开发者。摩尔线程的目标更宏大:培育百万规模的 MUSA 开发者社群。

为此,他们不仅提供了从入门到大师的专业课程,还把根扎到了人才源头——走进全国 200 所高校。通过产教融合、联合实验室以及 " 繁星计划 " 等竞赛,摩尔线程正在从象牙塔开始,培养属于自己的、懂国产架构的原生代开发者。

这也印证了中国工程院院士、清华大学计算机系教授郑伟民的观点:" 国产 GPU 的关键,在于要从能跑到愿意用。"

整体来看,当别人还在争论 " 国产 GPU 能不能用 " 时,摩尔线程已经通过从软件栈工具、硬件入口到人才培育的全链路布局,让开发者问出另一个问题:" 我的下一个项目,能不能全在 MUSA 生态里完成?"

这,或许才是真正的突破。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

摩尔 gpu 开发者大会 自主研发 芯片
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论