首届开发者大会，让摩尔线程全功能GPU的独特优势更「具像化」

作者｜包永刚

编辑｜林觉民

仲冬的北京略带寒意，但摩尔线程首届开发者大会（MDC）会场内热度十足。1000 平方米的展区汇聚了上千位开发者，他们关注智能机器人、数字人、Agent 等前沿技术，也在探讨 AI for Science、气象预测等尖端应用。

展区中央的数字文娱与视频多媒体区最为引人注目：有人沉浸在 eVTOL 全动飞行模拟器的操控体验中，也有人在国产 GPU 驱动的经典拳皇和 3A 大作的游戏世界里激战。" 国内能展示街霸游戏的，目前可能只有我们。" 一位工程师点出了摩尔线程在一众 AI 算力卡中，同时具备图形能力的稀缺性。

如果只是通过文字或视频了解摩尔线程这家国内为数不多做全功能 GPU 的公司，可能只是一个模糊概念。身处展区，一次性展示十个 GPU 的应用案例，足以让人理解 GPU 的一部分价值；而当近百个应用同时铺开时，带来的则是双重冲击——一方面是对全功能 GPU 能力边界的直观感知，另一方面，这些应用案例全部来自一家仅成立五年的国产 GPU 公司。

摩尔线程将全功能 GPU 的能力转化为覆盖从消费到垂直行业、从图形到 AI 再到高性能计算的广泛应用，这不仅是其独特价值的具象化呈现，也让人切实感受到全功能 GPU 的 " 奥义 " 所在。

中国工程院院士、清华大学教授郑纬民

正如中国工程院院士、清华大学教授郑纬民所言："做 GPU 必须同时支持三个特性：完整的图形流水线、张量计算核心以支持 AI，以及高精度浮点单元满足高性能计算。"

摩尔线程创始人、董事长兼 CEO 张建中

摩尔线程创始人、董事长兼 CEO 张建中指出："全功能 GPU 内置多种计算引擎，涵盖 AI 计算、3D 图形渲染、物理仿真与科学计算，以及超高清视频编解码。" 也就是说，"AI+3D 图形 + 高性能计算 "，摩尔线程在一颗芯片上同时做到了。

在首届开发者大会上，摩尔线程发布了新一代全功能 GPU 架构花港，以及基于花港的 AI 训推一体芯片华山、专业图形图像计算芯片庐山、全新的 AI SoC 长江，以及升级的 MUSA 5.0 软件栈和 AI BOOK。

显然，在摩尔线程的蓝图里，全功能 GPU 应用的宽度不仅满足传统应用的需求，更能捕捉 AI 浪潮中的各类机会，将创新潜力转化为可触达的现实价值。

近百个应用案例，让国产全功能 GPU 独特性更「具像化」

在 1000 平方米的展区里，最容易被感知的，是图形能力。无论是《拳皇》这样的经典游戏，还是赛车、射击等高负载场景，GPU 始终是玩家体验的核心。自 2022 年 11 月发布消费级显卡 MTT S80 起，摩尔线程几乎每 30 天更新一次驱动，已实现对 China Top 50 热门游戏的 100% 兼容，并对其中 44 款完成专项优化。

在视频与专业渲染场景中，GPU 图形能力的价值被进一步放大。摩尔线程的端侧实时视频超分技术 MTVSR，可实现 2 – 4 倍实时超分效果，同时降低视频存储和传输成本。在行业级场景中，基于摩尔线程 MTT X300 的国产视景系统——微视威 eVTOL 全动飞行模拟器，已通过中国民航局 5 级鉴定，首次打通全国产化视景渲染链路。

当全功能 GPU 的图形渲染与 AI 能力被同时调用，应用向更复杂的医疗、教育和工业场景延伸。智慧医疗领域，锦瑟医疗的篝火云平台基于 MTT S4000，将 AI 推理、三维重建与高性能渲染整合在同一平台，将二维医学影像实时转化为三维模型，通过 XR 设备呈现给医生，成为手术过程中的 " 第三只眼 "。

火热的智算场景中，摩尔线程通过 KUAE 集群的零中断容错方案，实现大规模训练全程不中断；在推理侧，与硅基流动对 MTT S5000 进行深度优化，在 DeepSeek 671B 全量模型的实际推理中，MTT S5000 单卡 Prefill 吞吐突破 4000 tokens/s，Decode 吞吐突破 1000 tokens/s，树立国产推理在低延迟和高吞吐的新标杆。

热门的具身智能赛道，景业智能的 VR 遥操作机器人系统已与 MTT E300 AI 模组适配，并与 MTT S80 协同工作。操作者通过 VR 眼镜，即可在高风险环境中完成精细作业，让 " 人以遥操、机器代劳 " 成为现实。

在更广阔的 AI 推理市场中，天思智慧、联达兴、全爱科技、紫光计算机等合作伙伴基于摩尔线程全功能 GPU 推出多款 AI Box，将算力延伸至具身智能、Agent、制造、办公、交通、教育和医疗等场景。

科学计算同样是全功能 GPU 优势的重要展示。摩尔线程联合北京大学高毅勤课题组，基于国产 SPONGE 和 DSDP 软件，打造软硬件协同的生命科学解决方案；硒钼科技的 AI for Science（AI4S）平台也已完成对 MTT S4000 适配。在 CAD、工业设计与专业可视化领域，基于 MTT S50 与 X300 的国产工作站方案正逐步投入使用。

展区集中呈现的近百个合作应用案例涵盖图形渲染、智能视频、AI 计算与高性能计算，跨越云端与端侧，覆盖游戏、医疗、具身智能及 AI4S 等方向。

这些案例并非零散罗列，而反复印证同一事实：同一架构下不同型号的全功能 GPU 可同时承担图形、AI 与计算任务，其应用广度相较传统 GPGPU 呈现出明显量级差异。

摩尔线程能在短短五年就能展现出如此多的应用，关键在于其一路狂奔。

下一代花港架构亮相，华山和庐山新品解开性能束缚

摩尔线程自成立之初便选择全功能 GPU 路线，自 2022 年量产第一代架构苏堤以来，以一年一代的速度快速迭代。2023 年发布春晓架构，2024 年量产曲院架构，2025 年量产平湖架构。

每代架构都推出满足不同市场需求的产品：苏堤架构的 S10 满足信创 PC GPU 国产化需求；春晓架构的 S80 和 S3000，前者为国内游戏玩家首款国产消费级显卡，后者满足云桌面需求；曲院架构 S4000 为首个训推一体 AI 集成卡，在 2024 年组建千卡集群；平湖架构 S5000 构建万卡集群，支撑万亿参数大模型训练。

2026 年，摩尔线程将推出基于全新指令集的下一代架构——花港。张建中表示：" 在国产工艺发展相对缓慢时，我们必须寻找更多方法提升算力密度。通过全新指令集，将算力密度提升 50%，并通过精心打磨架构，将效能提升 10 倍。"

为了实现巨大提升，花港架构进行多项优化：

计算精度优化：全精度端到端技术，并特别优化 FP8、FP6、FP4 低精度单元以提升能效；

扩展能力增强：支持十万卡以上计算集群，异步编程模型充分发挥每个算力单元性能，提高整体利用率；

图形渲染升级：流水线重新改组，搭建新一代 AI 生成式渲染架构（AGR），渲染能力进一步提升；第二代光线追踪加速引擎速度较上一代提升 5-6 倍，完整支持 DirectX 12 Ultimate；

安全性加强：提供四层安全防护，从安全域、信任域、保护域到功能域，全方位守护信息安全。

基于花港架构，摩尔线程推出两款新品：AI 训推一体芯片华山和专业图形图像计算芯片庐山，为国产芯片性能打开新上限。

华山是一款高性能 AI 推理与训练芯片，浮点计算性能位于业界最领先的两款 GPU 之间，访存带宽和高速互联同时提升，结合异步编程技术，实现高效线程同步、线程束特化和常驻核函数，综合性能极具竞争力。

华山在众多特性中有两个尤为突出，一个是新一代 TensorCore 不仅支持从 FP4 到 FP64 的全精度计算，同时对 FP8、FP6 和 FP4 等低精度单元进行了优化，这是业界发展的方向。

还有开放支持多种类的以太协议的特性。张建中表示，Scale-Up 时，如果摩尔线程坚持自己的 MTLink 路线，很多用户无法使用其他的 Switch，所以华山不仅支持 MTLink 4.0，还支持许多国内合作伙伴的以太网协议，充分兼容不同的硬件生态。

得益于新一代 Scale-up 系统，目前华山的能力能够实现 1024 个 GPU 的超节点。在此次开发者大会上，摩尔线程发布了 MTT C256 超节点的架构规划。

庐山作为花港架构专业图形计算产品，相比 S80，游戏性能提升 15 倍，AI 计算性能提升 64 倍，几何处理提升 16 倍，光线追踪提升 50 倍，显著增强纹理填充、原子访存能力及显存容量。3A 游戏、CAD、CAE 等场景均可胜任。

无论华山还是庐山，在花港架构支撑下性能大幅跃升，解开国产芯片性能束缚。这既得益于摩尔线程在全功能 GPU 路线上的持续迭代，也源于其技术和专利积累，截至 2025 年 6 月 30 日，公司累计授权专利 514 项，其中发明专利 468 项。

要充分释放花港架构潜力，MUSA 和开发者成为关键。

开放的 MUSA 生态，摩尔线程千亿价值的基石

MUSA（Meta-computing Unified System Architecture）是摩尔线程自主研发的元计算统一系统架构，覆盖从芯片架构、指令集、编程模型到软件运行库及驱动程序框架等的全栈技术体系。

郑纬民院士说，" 过去是全球分工，现在讲主权 AI。决定主权 AI 成败的关键，在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心，不是厂家，厂家需要与开发者一块努力把生态做好。"

如何才能把生态做好？北京智源人工智能研究院 AI 框架研发负责人敖玉龙说：" 包容和兼容，包容意味着涵盖多条技术路线；兼容意味着不必打造完全不同的生态。"

摩尔线程正是以此为思路构建 MUSA 生态。摩尔线程联合创始人、首席技术官张钰勃说，"MUSA 软件栈在编程模型、方式和加速库功能上与国际主流高度一致，最大限度降低开发者学习成本。但这样难以追赶国际主流，怎样才能突破？"

" 有两个思路，一个是通过更高级抽象的 DSL 领域专业编程语言，将底层创新精确发挥；另一个是与开发者深度融合，实现软硬件协同设计 1+1>2 的效果。" 张钰勃进一步表示。

沿着这个思路，MUSA 5.0 在全栈统一性、极致效能和生态开放性上取得关键突破：

编程生态升级：原生 MUSA C，深度兼容 TileLang、Triton 等编程语言，为开发者提供灵活高效的全栈开发体验。

计算效能优化：核心计算库 muDNN 实现 GEMM/FlashAttention 效率超 98%，通信效率达 97%，编译器性能提升 3 倍，并集成高性能算子库，显著加速训练与推理全流程。

开源生态扩大：计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件，向开发者社区开放深度优化的底层能力。

前沿特性拓展：即将推出兼容跨代 GPU 指令架构的中间语言 MTX、面向渲染 +AI 融合计算的编程语言 muLang、量子计算融合框架 MUSA-Q，以及计算光刻库 muLitho，持续拓展全功能 GPU 的算力边界。

MUSA 5.0 作为连接开发者和摩尔线程最重要的桥梁，也需好用的开发平台。

为此，摩尔推出了搭载长江智能 SoC 的 AIBOOK。新一代长江 AI SoC 集成 CPU、GPU、NPU、VPU、DPU、DSP、ISP 等单元，提供高达 50TOPS 端侧 AI 算力，内置 1TB SSD、32G/64G 高速存储，预装 Linux 内核 AIOS 系统及各种开发工具，支持主流操作系统，实现真正的 " 开箱即用 "，成为开发者在 AI 时代的超级个体。

此外，基于长江 SoC 的迷你型计算设备 MTT AICube 也将推出，为开发者提供更多选择。摩尔线程还将推出面向前沿领域的完整方案，如端云一体化具身智能方案 MT Robot，帮助开发者缩短产品上市周期。

目前，摩尔学院用户总量已经达到了 20 万，这是阶段性成就，摩尔线程的目标是拥有百万级的 MUSA 开发者。

这并非空想，全功能 GPU 已经决定了摩尔线程能够探索的应用，包括图形渲染、AI 与高性能计算，而 MUSA 生态的繁荣程度，则决定了在各个市场的应用厚度和不可替代性。广度与厚度的乘积，正是支撑摩尔线程千亿价值的基石。

从首届开发者大会的近百个应用案例，到 MUSA 生态与花港架构的落地，摩尔线程正以完整技术体系和开放生态，将潜力转化为切实价值。雷峰网

宙世代

一起剪

相关标签