
图片来自 AI 生成
在完成资本市场的关键一跃之后,摩尔线程要回答更大的问题。
在摩尔线程首届 MUSA 开发者大会(简称:MDC 2025)上,摩尔线程创始人、董事长兼首席执行官张建中拿出了一连串的 " 硬货 ",全功能 GPU 架构 " 花港 ",夸娥万卡智算集群,下一代超节点架构,搭载智能 SoC 芯片 " 长江 " 的 AI 算力本 MTT AIBOOK 等。
如果只看产品名、参数和发布节奏,这场 MDC 2025 很容易被误解成一次例行升级。但把张建中两个多小时的演讲完整听下来,会发现摩尔线程想传递的并不只是国产 GPU 又快了多少,而是一个核心趋势:国产 GPU,终于像一家真正的基础设施公司那样思考问题了。
摩尔线程素来被视为 " 中国版英伟达 ",这体现在它的方方面面,张建中曾任英伟达全球副总裁、中国区总经理,在 GPU 行业深耕近二十年,团队并不缺少英伟达履历的人,公司行事风格和英伟达很像,譬如 MDC 就对标英伟达的 GTC。
之所以摩尔线程选择全功能 GPU,也和英伟达 " 通用并行计算 " 的思路一致,不做 AI-only 加速器,图形、AI、HPC、视频共存,他们认为,下一代应用一定是混合计算,而不是单一模型推理。
英伟达最被低估的,不是芯片,而是 CUDA 生态,摩尔线程最容易被忽略的也是 MUSA。英伟达真正完成质变,是从 GPU 公司变成算力基础设施公司,摩尔线程这两年的变化也非常明显,从单卡到万卡集群,从追求性能到追求稳定性、线性度、MFU 等系统级指标。
但,若只看到 " 像英伟达 ",就会得出一个错误结论,摩尔线程是在 " 复刻英伟达 ",其实不然,英伟达成长在一个高度全球化、低摩擦的产业环境里,摩尔线程则要面对供应链不确定性、技术封锁、国产生态薄弱等难题,这是英伟达当年不需要做的题目。
更确切的说法是,摩尔线程在用英伟达的方法论,解决中国自己的算力问题,在中国现有产业条件下,重走一遍 GPU 的必经之路。

为什么是全功能 GPU?
在张建中演讲的开始,首先阐释了摩尔线程为何要做全功能 GPU。" 全功能 GPU 的创新,就是一部算力进化史。" 他说。
如果回顾 GPU 的发展史,会发现它并不是为某一类应用而生,而是在持续拓展自身的计算边界。早期 GPU 主要承担图形与 3D 渲染任务;进入本世纪后,随着可编程能力的引入,GPU 开始向通用并行计算平台演进。其后,GPU 在科学计算和深度学习中的广泛应用,使其逐步成为人工智能时代的核心算力载体。
随着 Transformer 架构推动生成式 AI 爆发,人工智能正从感知 AI、生成式 AI 迈向 Agentic AI,并进一步走向与现实世界深度融合的物理 AI 阶段。未来五到十年,具身智能等新形态应用,要求算力平台同时具备计算、仿真、图形与感知能力,这并非单一功能加速器可以胜任。
张建中表示,从更长周期来看,未来五到十年的关键应用形态,很可能集中体现在具身智能领域。具身智能通过将人工智能能力嵌入真实世界的物理实体之中,推动虚拟世界、数字世界与物理世界的深度融合,而这背后所依赖的,正是能够支撑复杂计算形态的物理 AI 基础设施。
在这一演进过程中,"3D + AI + HPC" 并非偶然组合,而是全功能 GPU 自然演进的结果。随着 GPU 在图形、计算与仿真等多个维度能力的不断融合,其逐步演化为支撑新一代科技发展的核心基础设施。实践已经反复证明,
在张建中看来,基于全功能 GPU 构建的算力基础设施,更有能力支撑技术体系的持续演进与长期领先。
从技术架构角度看,全功能 GPU 的核心在于其内部集成的多类计算引擎,实现对多样化计算需求的统一支撑。当前,全功能 GPU 主要包含四类核心计算引擎:
首先是 AI 计算引擎,覆盖模型训练、推理以及训推一体等典型场景,是支撑大模型与各类 AI 应用的基础能力。
其次是 3D 图形渲染引擎,为数字内容生产、数字孪生、仿真可视化等场景提供高性能图形处理能力。
第三是 高性能计算与物理仿真引擎。这一能力在科学计算和 AI for Science 场景中具有重要价值,能够支撑复杂物理过程模拟与大规模科学计算任务。
第四是 智能视频编解码引擎。尽管这一能力往往容易被低估,但在云端计算成为主流的背景下,视觉仍是人类感知计算结果的主要方式。高效的视频编解码能力,决定了云端算力成果能否被稳定、低成本地传递至终端用户。
MUSA 才是 " 第一产品 "
MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一计算架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。
一个完整 MUSA 的统一系统架构,最底层是摩尔线程全功能 GPU,可以去处理各种行业、不同精度、不同类型和不同格式的数据。
在全功能 GPU 之上,是硬件系统,摩尔线程的智算集群叫作夸娥。夸娥智算集群可大可小,小到一个小的系统,大到一个万卡集群,十万卡集群,甚至更大的超大规模。
在硬件基础之上,摩尔线程搭建所有的软件栈。首先是 MUSA 全套软件栈,包括所有的加速库,所有的开发者调试工具和开发者的应用案例和实例,利用全套 MUSA 体系结构能够在基础之上去搭建夸娥的基础软件。
在这一基础上,摩尔线程继续建设 MUSA 生态,可以看出,MUSA 是一个从芯片到生态的完整系统。

本次 MUSA 升级至 5.0,标志着架构步入成熟。原生 MUSA C,深度兼容 TileLang、Triton 等编程语言,核心计算库 muDNN 实现 GEMM/FlashAttention 效率超 98%,通信效率达 97%,编译器性能提升 3 倍,并集成高性能算子库,显著加速训练与推理全流程。
摩尔线程计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放深度优化的底层能力。据悉,摩尔线程即将推出兼容跨代 GPU 指令架构的中间语言 MTX、面向渲染 +AI 融合计算的编程语言 muLang、量子计算融合框架 MUSA-Q,以及计算光刻库 muLitho,持续拓展全功能 GPU 的算力边界。
"MUSA 不光是支持国际上通用的 CPU 系统,同时也支持国产的 CPU 操作系统和国内的开发环境。利用我们国产的生态,结合国际的生态,能够完美支撑 AI、3D 图形和科学计算应用当中的方方面面。" 张建中表示,摩尔线程统一软件栈能够覆盖全系列产品,覆盖 " 云边端 " 三个系列,这些产品都可以用同一套软件来支撑不同的硬件产品。
" 花港 " 新架构、两款芯片和夸娥万卡集群
过去几年,国产 GPU 厂商最容易被问到的问题只有一个:" 你们性能追到哪一代了?" 摩尔线程给出了自己的答案,基于 MUSA 统一体系,摩尔线程揭晓新一代全功能 GPU 架构 " 花港 ",该架构在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破,其核心特性包括:
计算性能显著提升:基于新一代指令集,算力密度提升 50%,能效大幅优化;支持从 FP4 到 FP64 的全精度端到端计算,新增 MTFP6/MTFP4 及混合低精度支持。
异步编程与超大规模互联:集成新一代异步编程模型,优化任务调度与并行机制;通过自研 MTLink 高速互联技术,支持十万卡以上规模智算集群扩展。
图形与 AI 深度融合:内置 AI 生成式渲染架构,增强硬件光线追踪加速引擎,完整支持 DirectX 12 Ultimate,实现图形渲染与智能计算的高度协同。
全栈自研与安全可信:架构基于全栈自主研发,拥有扎实的专利壁垒(截至 2025 年 6 月 30 日,公司累计授权专利 514 项,其中发明专利 468 项),具备全栈自研与自主可控的核心能力。通过四层硬件安全架构,提供从芯片到系统的可验证安全守护。
基于 " 花港 " 架构,摩尔线程公布了未来将发布的两款芯片技术路线:
" 华山 " 专注 AI 训推一体与超大规模智能计算。集成新一代异步编程与全精度张量计算单元,支持从 FP4 至 FP64 的全精度计算,为万卡级智算集群提供稳定高效的算力支撑,是构建下一代 "AI 工厂 " 的坚实底座。

" 庐山 " 专攻高性能图形渲染。其图形性能实现全面跨越:AI 计算性能提升 64 倍,几何处理性能提升 16 倍,光线追踪性能提升 50 倍,并显著增强纹理填充、原子访存能力及显存容量。集成 AI 生成式渲染、UniTE 统一渲染架构及全新硬件光追引擎,为 3A 游戏、高端图形创作提供强大算力支持。
人工智能基础设施的边界早已突破芯片的边界,摩尔线程也将自己的能力拓展到集群系统层面。
本次大会,摩尔线程正式发布了夸娥万卡智算集群。该集群具备全精度、全功能通用计算能力,在万卡规模下实现高效稳定的 AI 训练与推理。其核心突破包括:浮点运算能力达到 10Exa-Flops,训练算力利用率(MFU)在 Dense 大模型上达 60%,MOE 大模型上达 40%,有效训练时间占比超过 90%,训练线性扩展效率达 95%,与国际主流生态高度兼容,并在多项指标上具备显著能效优势。
在训练侧,基于原生 FP8 能力完整复现顶尖大模型训练流程,并在多项关键精度指标上达到国际主流水平。技术层面实现关键优化:Flash Attention 算力利用率超 95%,并突破 FP8 累加精度等关键技术瓶颈,充分释放国产 GPU 在大模型训练中的性能潜力。
在推理侧,摩尔线程联合硅基流动,经过系统级工程优化与 FP8 精度加速,在 DeepSeek R1 671B 全量模型上实现性能突破:MTT S5000 单卡 Prefill 吞吐突破 4000 tokens/s、Decode 吞吐突破 1000 tokens/s,树立国产推理性能新标杆。
面向未来,发布了 MTT C256 超节点的架构规划。该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力,为下一代超大规模智算中心构建兼具超高密度与极致能效的硬件基石。
摩尔线程这场大会,更像是一种国产算力进入长期主义阶段的宣言。这条路不会快,也不会轻松,但至少,从这次 MDC 开始,它不再是零散的点,而是一条能被复述、被理解、被跟随的路线。


登录后才可以发布评论哦
打开小程序可以发布评论哦