在半导体行业,有一种共识:做出一颗芯片可能需要三年,但让开发者愿意在这颗芯片上写代码,往往需要十年。英伟达 CUDA 的成功,本质上是软件栈与开发者生态的胜利。对于国产 GPU 而言,单纯对标算力参数已不足以维系长期的竞争力,真正的挑战在于如何建立起一套软硬深度融合、且能让全球开发者无感迁移的统一架构。
在 12 月 20 日举行的摩尔线程 2025 MUSA 开发者大会上,我们清晰地感受到了这种对生态突围的共鸣。这不是一场闭门造车的技术发布,而是一场千人规模的 "MUSA 嘉年华 "。 在大约 1000 平米的沉浸式展区内,从 AI 大模型与 Agent 的智能交互,到具身智能的物理演进,再到空间智能与科学计算的深度融合,MUSA 生态的触角已经延伸至工业智造、智慧医疗、数字文娱等每一个真实的应用场景。

支撑这场 " 嘉年华 " 的,是摩尔线程过去五年交出的硬核成绩单:5 颗芯片,超 43 亿元研发投入,高达 77% 的研发人员占比,超 20 万的活跃开发者生态。这些数字共同印证了其在全功能 GPU 领域的技术厚度、产品完整度与生态影响力,不仅凸显了摩尔线程在国内该赛道中的稀缺地位,也为其持续引领自主算力进化奠定了扎实的体系化基础。
MUSA:不止是一个软件
很多人误把 MUSA 仅仅认为是 " 一个软件 ",这其实低估了它的定位。
如同英伟达的 CUDA 一样,CUDA 是英伟达围绕自家 GPU 打造的一整套并行计算平台 + 编程模型 + 软件栈 + 生态体系,它长得像软件,但它和硬件能力是强绑定的。
MUSA 也不仅仅是一个软件包,MUSA(Meta-computing Unified System Architecture)是摩尔线程自主研发的元计算统一系统架构,覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。这是一个可以让开发者在摩尔线程 GPU 上" 写代码、迁移代码、跑框架、做调优、规模化落地 " 的整套平台。

再直观一点的对比是,你不能把 Android 理解成 " 一个 APK 安装器 ";也不能把 Windows 理解成 " 一个 EXE 启动器 "。它们都是平台,生态在平台之上长出来。
摩尔线程的所有软硬件产品,均基于 MUSA 架构,MUSA 完整定义了从芯片设计到软件生态的统一技术标准。
全功能 GPU:
跨越范式更迭的 " 万能算力底座 "
回望过去三十年,GPU 的创新史本质上是一部算力范式的进化史。从上世纪末的图形加速,到本世纪初可编程 GPU 的出现,走向通用计算,并推动我国 " 天河一号 " 超级计算机的诞生,再到深度学习浪潮中的 AI 爆发。今天,我们正从感知 AI 迈向生成式 AI、Agentic AI,再到物理 AI,在所有这些进化过程中,GPU 始终处于计算革命的风暴眼。

这正是摩尔线程坚持 " 全功能 GPU" 的初衷——既踏攀登路,必闯最高峰。所谓 " 全功能 GPU",并非仅具备图形渲染或 AI 训练能力,而是同时实现图形图像处理、AI 张量计算、物理仿真和超高清视频编解码等多种任务协同处理能力。这种架构的芯片,不仅面向 AI 模型训练、智算中心部署,也能支撑游戏图形、视频渲染等大众级应用场景,具备高度通用性与生态承载力。

在计算范式的每一次迭代中——从 CNN 到 Transformer,再到未来的世界模型,GPU 始终能够立于不败之地,因为它是一个性能和灵活度的 " 甜点 "。我们正处于一个高速发展的创新试验场里,底层架构哪怕大框架没变,新型算子也在不断出现。我们需要足够的灵活度让技术继续演进。
全功能 GPU 的优势在于 " 图算结合 "。未来的世界将是多模态的,既需要 AI 计算理解世界,又需通过图形渲染构建世界,甚至需要支持超高清视频传输。全功能 GPU 正是能够跨域支持这些多样化计算需求的核心技术。无论计算范式如何变迁,所有创新都将在 GPU 的灵活性中诞生。
五年五代架构,
算力进化的 " 步进器 "
自 2022 年起,摩尔线程保持着每年发布一代新架构的惊人节奏:从解决信创 PC GPU 国产化关键问题的" 苏堤 "S10,到首款国产消费级显卡架构" 春晓 "MTT S80,再到助力大规模 AI 训推一体的智算卡、千卡集群的" 曲院 "S4000,乃至支持万亿参数规模的" 平湖 "MTT S5000。

而今,最新一代的 " 花港 " 架构正式登场。
" 花港 " 架构基于新一代指令集架构及 MUSA 处理器架构,算力密度提升 50%,计算能效实现 10 倍提升。在原有 MTFP8 的技术下,新增 MTFP6/MTFP4 及混合低精度端到端加速技术。该架构提供了新一代的异步编程模型加速技术,全面优化异步编程模型、任务与资源调度机制,提升并行执行效率。通过自研高速互联 MTLink 技术,可支持十万卡以上规模智算集群。图形方面," 花港 " 提供一种全新的 AI 生成式渲染架构 AGR,用 AI 加速图形渲染流水线,集成全新光追硬件加速引擎,能够完美支持 DirectX 12 Ultimate。

摩尔线程在过去的 5 年中,持续不断深耕架构自研," 花港 " 架构也是全栈自研,安全可控。截至今年 6 月 30 日,摩尔线程已经申请专利 1000 余件,其中授权专利高达 500 余件,发明专利 468 件,专利数量在国内 GPU 企业中排名领先。
另外," 花港 " 架构中,摩尔线程也自研并集成了完善的安全策略,通过 4 层安全架构(安全域、信任域、保护域和功能域),时刻为芯片提供安全守护。
拳头产品:
华山练 AI,庐山绘世界
" 一个好的架构要有好的产品才能够为更多的开发者服务。" 张建中表示,基于 " 花港 " 架构,摩尔线程正在研发两款 GPU 芯片。
(一)华山,AI 训推一体芯片
第一款芯片——华山,是一款AI 训推一体、智算融合的 GPU 产品。华山芯片对标国外顶尖厂商的 BXXX 和 HXXX 芯片,在算力、通信和访存带宽等方面具有明显优势。
为了解决传统 GPU 任务分配不均导致的算力闲置问题," 华山 " 集成了新一代异步编程模型:通过 Persistent Kernel 及自动化调度机制,将负载智能平衡到每一个计算单元,同时赋予了开发者近乎 " 无感 " 的高效开发体验。
此外,华山还集成了新一代 Tensor Core,专为 AI 应用中的 Tensor 计算优化。特别是在 FP8、FP6 和 FP4 等低精度设计单元的改良上,华山为特定应用场景创造了新的技术解决方案—— TCE-PAIR。这种技术允许两个 Tensor 计算引擎共享数据,避免重复数据调度,大幅提高算力效率。
更重要的是,华山芯片内部集成了专为大语言模型(LLM)定制的加速引擎,针对 Transformer 架构及 LLM 的各个环节,摩尔线程将核心算法逻辑固化至硬件单元中。这种设计确保了每一个软件模块都有对应的硬件引擎驱动,使大模型训练和推理的速度与效率达到极致。
为了满足用户对超大规模算力的需求,华山提供了超十万卡级别的 "AI 工厂 "技术,专注于 Scale-up 和 Scale-out 的扩展能力。在提升算力规模的同时,通过本地支持 Scale-up,确保多 GPU 协同工作时的高效性能。
华山不仅支持摩尔线程的 MTLink 4.0,同时开放支持多种以太网协议,使其能够兼容国内外各种硬件生态。通过对不同协议的支持,华山能够适配更多的 Scale-up Switch 和应用场景,并通过支持 SHARP 协议,提高通信效率,确保数据传输的高速和稳定。
在集群能力方面,华山的 Scale-up 系统使得单个超节点能够支持高达 1024 个 GPU 的扩展,为大规模计算提供了强大的带宽和处理能力。此外,华山内置的 RAS2.0 技术(包括 ECC 和 SRAM 校验)保障了芯片底层的准确性与稳定性。自动检测、上报与隔离机制确保在集群中任何芯片出现问题时能够及时处理,保证集群整体的安全性和稳定性。
尤为值得一提的是,华山集成了 ACE2.0 异步通信引擎,这也是摩尔线程的一项独特创新。与 ACE1.0 相比,ACE2.0 通过在每个计算单元内设计小型 ACE 引擎,实现通信与计算的高度并行化,大幅提升了整体效率。这一技术的引入,配合 RAS2.0 和新一代 Scale-up 系统,使得华山在大模型训练中的集群能力更加出色,能够满足超大规模和高参数量的用户训练需求。
(二)庐山,高性能图形渲染芯片
庐山,是一款专为专业图形计算设计的芯片。得益于 " 花港 " 架构,庐山在图形计算和 AI 能力上展现了极大的优势。与 S80 相比,庐山在 3A 游戏性能上提升了 15 倍,AI 计算性能提升 64 倍,几何处理性能提升 16 倍,让更复杂的图形细节得以完美呈现。此外,庐山在纹理填充、光线追踪和原子访存方面分别提升了 4 倍、50 倍和 8 倍,显存容量也提升了 4 倍,这使得庐山不仅能够应对 3A 级游戏,还能完美支持 CAD、CAE 等专业应用场景。

一个重要的创新是庐山内置的 AI 生成式渲染功能,从几何与网格着色、像素着色、光线追踪、后处理乃至 MTSS 等环节,每一步渲染都由 AI 计算加速引擎支持,提升了图形处理效率。此外,庐山独创的统一任务引擎管理框架,使得 GPU 的每个计算单元都能实现高度并行计算。无论有多少核心或 GPU,任务都能得到最优分配,从而大幅提升整体工作效率。
夸娥十万卡集群:
打造 AGI 时代的 "AI 工厂 "
有了顶尖芯片,如何应对超大规模算力需求?在 AI 智算领域,摩尔线程正实现从千卡、万卡向十万卡集群的跨越。

如中国工程院院士、清华大学计算机系教授郑纬民所说,打造国产万卡或十万卡系统非常困难,它不仅是将卡片连接起来并通电,更是要确保系统既能用,又好用。实现十万卡系统面临三大难题:一是如何连接这么多卡;二是如何保证系统在卡出现故障时仍能持续运行;三是如何解决大规模集群的能耗和散热问题。
为此,摩尔线程推出了超十万卡级 AI 工厂技术,突破了传统 GPU 集群的瓶颈,支持 Scale-up 系统,可以扩展至 1024 个 GPU,满足大规模 AI 计算任务的需求:
新一代 MTLink 4.0 技术支持多种协议与设备的兼容,具备 1314 GB/s 的片间互联带宽,极大提升了数据传输效率;同时,ACE 2.0(异步通信引擎)进一步优化了 GPU 之间的协同工作,提升了计算与通信的并行效率,支持更高效的任务调度与资源分配;RAS 2.0 则增强了芯片的容错能力和可靠性,提供了更强的错误检测、调试能力以及 ECC 内存保护,确保超大规模集群的高稳定性和高可用性;此外,超节点解决方案 MTT C256,支持 256 个 GPU 的超节点集群,能够在亿级拓扑互联层下高效互通,进一步提升大规模训练集群的效率。
MUSA 5.0:
全栈软件栈的全面升级
如果说硬件是算力的骨架,软件栈则是算力的灵魂。摩尔线程本次大会正式宣布 MUSA 5.0 全面升级,这不仅是版本的更迭,更是其软件栈迈向成熟期、全场景覆盖的重要里程碑。MUSA 5.0 通过对全功能 GPU 四大引擎的深度适配,实现了从 AI 训练、3D 图形渲染到科学计算的无缝支撑,为全场景应用提供了统一的技术底座。
MUSA 5.0 的核心竞争力在于其 " 无边界 " 的适配能力。它不仅完美兼容国际主流 CPU 操作系统,更实现了对国产 CPU 及开发环境的深度优化,这种 " 双轮驱动 " 的策略,确保了 MUSA 能够充分吸纳国内外生态优势,助力 " 云 - 边 - 端 " 系列产品在统一的软件栈下获得一致的性能表现。
具体来说,MUSA 5.0 的升级包括三个主要部分:
编程模型:MUSA C 是核心编程模型,除了兼容扩展,还引入了 TileLang,以支持更广泛的 AI 软件开发。此外,还集成了北京智源研究院的 FlagOS 和 Triton 框架,进一步提升开发效率。
性能优化:在计算方面,MUSA 5.0 大幅提升了芯片设计的集成效率,在 HGEMM 算子效率中达到了 98%,通信效率达 97%。这些优化使得开发者能够更加高效地利用 GPU 资源,获得显著的性能提升。
开源支持与工具:MUSA 5.0 推出了多个开源工具,包括 MT DeePEP(用于并行策略的自由搭建)、夸娥管理软件(用于更高效的管理与调度),并计划在明年上半年开放 MTX,让开发者能精细操作 GPU 资源。此外,特别为 3D 图形与 AI 结合的应用场景推出了 muLang 编程语言,支持开发者更灵活地进行跨域编程。
MUSA 5.0 的触角正在向更前沿的领域延伸。针对量子计算,MUSA-Q 框架通过经典计算与量子框架的耦合,探索混合计算的商业化落地;在半导体制造端,muLitho 致力于通过 GPU 加速 OPC 计算,为国产半导体工艺的迭代提速。
这一系列升级计划于明年上半年正式规模化落地。MUSA 5.0 正在通过这种 " 全栈化、高性能、开放式 " 的软件哲学,不仅大幅提升开发者的工程效率,更在加速补齐国产 GPU 生态最后一块拼图。
入局具身智能:
以 " 长江 "AI SoC 构筑物理 AI 基石
具身智能是摩尔线程开辟的又一战略高地。据预测,到 2050 年全球机器人数量将达 10 亿部,而这场变革的核心挑战在于:如何构建一套大型物理 AI 基础设施,确保智能体能够在复杂现实中安全、可靠地与人类交互。
在具身智能的开发逻辑中,Sim to Real(仿真到现实)的迁移效率决定了智能体的进化速度。对此,摩尔线程正式发布具身智能仿真训练平台 MT Lambda,它深度整合了物理、渲染与 AI 三大核心引擎,旨在为开发者提供一套从场景构建、数据合成到仿真训练的高效工作流。
此外,具身智能还需要一个强悍的边缘侧内核。摩尔线程首颗 AI SoC 芯片 " 长江 " 正式亮相,这标志着摩尔线程算力布局从 GPU 延伸到了高度集成的芯片系统。" 长江 " 集成了 CPU、GPU、NPU、VPU、DPU、DSP 和 ISP 等多维算力核心。无论是具身智能机器人,还是下一代 AIBOOK、AICube,均可通过 " 长江 " 获得原生 AI 算力。

为了打通具身智能的最后一公里,摩尔线程推出了完整解决方案—— MT Robot。其中,基于 KUAE 智算集群提供的强大云端算力作为 " 大脑 ",处理大规模训练与复杂决策;依托内置 " 长江 " 芯片的 MTT E300 模组作为敏捷 " 小脑 ",实现端侧的低延迟响应与实时避障。

摩尔线程在具身智能领域的入局,本质上是其全功能 GPU 能力的向下延伸与横向拓扑。通过 MT Lambda 仿真平台解决 " 虚实迁移 " 的效率难题,凭借 " 长江 "AI SoC 在边缘侧构筑强大的计算内核,再通过 MT Robot 方案实现 " 云端大脑 " 与 " 端侧小脑 " 的无缝协同——摩尔线程不仅提供了算力,更提供了一套从虚拟训练到物理落地的全栈自主路径,让 AI 真正具备了行走于物理世界的行动力。

开发者,
才是国产 GPU 生态的 " 压舱石 "
英伟达 CUDA 的成功史证明了一个铁律:真正决定芯片厂商生死存亡的,不是单纯的算力参数,而是是否有足够多的开发者愿意在你的架构上写代码。
对于国产 GPU 而言,要跨越 " 生态鸿沟 ",必须解决三大痛点:迁移成本高、工具链不够成熟、社区与文档不够完善。但目标路径也很清晰——从 " 能用 " 到 " 好用 ",再到 " 愿意用 "。开发者体验做顺了,生态才会自发增长。摩尔线程的 MUSA,本质上就是面向 CUDA 生态的一次国产化实践。
摩尔线程的 MUSA 软件栈也是围绕 " 如何让 GPU 既‘好用’又‘用得好’出发 "。在圆桌论坛中,摩尔线程联合创始人、CTO 张钰勃提到," 好用 " 和 " 用得好 " 看起来天然有张力:好用意味着更高层、更标准化、更贴近主流抽象;而要用得好、要突破,就必须把底层微架构的创新发挥出来。对此,MUSA 的思路是:先对齐主流生态的使用习惯——编程模型、编程方式、加速库能力尽量与国际主流保持一致,让开发者以最低学习成本、最低迁移成本把国产 GPU 先 " 用起来 "。同时,AIBOOK 作为 MUSA 生态的核心入口,通过深度集成统一架构和开发者工具链,为开发者提供了从本地开发到云端扩展的无缝体验,进一步降低了生态参与门槛。

而真正的突破点在下一步:底层架构创新怎么 " 露出来、用起来 "。他们提出两条路径:
01
用更高层抽象的 DSL/ 编译技术,把底层优势显性化。例如通过支持 Triton,甚至未来基于 TAL 的编程方式,让编译器把细粒度的硬件创新转化为开发者可直接获得的性能收益;
02
生态共建。软硬协同不是单打独斗,仅靠一家厂商的软件栈不够,需要与开发者与平台型伙伴深度协作。比如与硅基流动在平台上做联合优化,通过通用 AI 基础平台推进软硬件协同设计,形成 "1+1>2" 的效果。这一协同已初见成效,例如在推理侧。与硅基流动对 MTT S5000 深度优化后,在 DeepSeek 671B 全量模型的实际推理中,MTT S5000 单卡 Prefill 吞吐突破 4000 tokens/s,Decode 吞吐突破 1000 tokens/s,树立国产推理在低延迟和高吞吐的新标杆。
结语
" 算力就是国力。" 在这场关于通用算力的长跑中,没有捷径可走。从 MUSA 架构的底层深耕,到十万卡集群的布局,再到具身智能的入局,摩尔线程正以全功能 GPU 为笔,在国产算力的长卷上,勾勒出一座属于未来的 " 算力长城 "。这座长城,不仅由硬核的半导体晶体管筑就,更由数十万活跃开发者手中的每一行代码汇聚而成。在这场 AGI 时代的进击中,全栈自研的底气,正是我们通往算力自由的最强脊梁。
* 免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
END
今天是《半导体行业观察》为您分享的第 4268 期内容,欢迎关注。
推荐阅读
加星标⭐️第一时间看推送,小号防走丢
求点赞
求分享
求推荐


登录后才可以发布评论哦
打开小程序可以发布评论哦