摩尔线程“云边端“全栈发布：国产GPU一个更大的故事

一家国产 GPU 公司的产品跨度能有多大？5 月 18 日，摩尔线程的 2026 产品发布会现场，出现了一幅颇具反差的画面。

舞台一侧展示的是夸娥万卡智算集群，另一侧是自研 " 长江 "SoC 驱动的智能终端 MTT AICUBE 和 MTT AIBOOK。软件端，摩尔线程给的是从数字世界智能体 " 小麦 "，到加速物理 AI 落地的首个全栈具身智能仿真平台 MT Lambda，再到持续进化的 MUSA 生态。

从数据中心到客厅茶几，摩尔线程在同一场发布会上展示了截然不同产品矩阵。

显然，这不是一般芯片公司会做的事。它释放的信号很明确：摩尔线程不只想做 " 国产英伟达 "，而是要做一个覆盖云边端的全栈算力基础设施提供商。" 全功能 GPU" 加 " 统一架构 "，是它押注的差异化路线。

摩尔线程的产品矩阵看似跨度极大，实则共用同一套 MUSA 架构内核。这是 " 全功能 GPU" 路线首次在中国市场完成云边端的完整落地验证。

先看云端，这一次摩尔线程给出的是一套大模型训练的硬件基座。

基于 MTT S5000 构建的夸娥万卡智算集群已经商业化落地，几个硬指标值得关注：Dense 大模型训练算力利用率（MFU）达到 60%，MoE 大模型达 40%，训练线性扩展效率 95%，有效训练时长占比超过 90%。这几个数字合在一起的意思是——它不仅能跑起来，而且已经是能真实支撑行业应用的水平。

数据指标层面，MTT S5000 单卡 AI 算力（稠密）为 1000 TFLOPS，配备 80GB 显存和 1.6TB/s 显存带宽，作为国内最早原生支持 FP8 精度的训练 GPU，在 DeepSeek-V4、Qwen3.5、GLM-5.1 等大模型上实现了 "Day-0 适配 "。面向更大规模的智算需求，摩尔线程第五代 " 花港 " 架构已发布，支持十万卡级扩展。更大的算力集群，才能应对不断膨胀的大模型算力支出。

再看端侧，本次发布会的最大新品亮点是 MTT AICUBE。

摩尔线程对 MTT AICUBE 的定义很清晰：不是 AI PC，不是 NAS，而是 " 家庭 AI 中枢 "。产品形态上，AICUBE 整合了 " 小麦 " 全域智能体、50TOPS 异构本地算力和全闪存私有云，标配 1TB SSD，支持 7 × 24 小时运行。小麦智能体集成了 90 余项 CLI 系统工具、60 余项技能和 36 款以上 APP 的跨应用控制，依托摩尔线程自研的 MTClaw 开源框架，高频工具调用成功率超过 95%。

摩尔线程 AICUBE 的战略意图，非常值得关注。

它搭载的 " 长江 "SoC 是摩尔线程自研芯片，集成 8 个 2.65GHz 全大核 CPU、全功能 GPU 和高能效 NPU，136GB/s 内存带宽，最高支持 64GB LPDDR5X。这颗芯片同时支撑 AI 计算、图形渲染和视频编解码——这正是 " 全功能 GPU" 理念在终端的延伸。摩尔线程把算力从智算中心推向家庭场景，本质上是在 Token 时代对端侧算力需求的提前卡位。从某种角度来说，MTT AICUBE 有点像是对标谷歌音响。两者区别是谷歌能直连 gemini，而 MTT AICUBE 对模型的支持更加开放。

最后是边缘侧 AI 产品，摩尔线程带来了 MTT E300 AI 模组，它具有 50TOPS 异构算力、-20 ° C 至 +65 ° C 宽温设计，面向工业质检、能源巡检、具身智能、低空经济等场景。从全球范围来看，MTT E300 AI 模组跟高通今年主推的跃龙系列有点像，都是主打工业领域的 AI 算力需求。

整体下来，E300 与 AIBOOK（AI 算力本）、AICUBE 共同构成 " 长江 "SoC 的落地三角，覆盖个人、家庭到行业。

结合云端万卡集群的配置，展示出摩尔线程"云边端"三层不是割裂的产品线，而是 MUSA 统一架构在不同算力密度下的三种形态。

摩尔线程的真正差异化，不在于产品线全，而在于它选择了一条国内罕有的 " 全功能 GPU" 技术路线。这个选择背后，是摩尔线程对 AI 算力终局的一种判断。

什么是全功能 GPU？简言之，它不是只做 AI 加速，也不是图形 GPU（渲染），而是单一芯片同时支持 AI 计算、图形渲染、物理仿真和科学计算、超高清视频编解码的统一架构。换句话说，就是类似英伟达的 GPU 能力。其他大多数 GPU 厂商这边，其产品还是有些专门设计，例如 AMD 的 AI 芯片和图形芯片分属两套不同架构。

为什么摩尔线程要选择这条路线？因为，未来的 AI 不只是大模型训练，而是数字世界与物理世界的深度融合。

具身智能行业的发展，已经证明了这一点。在机器人的训练环节中，需要 " 算 + 渲 + 仿 " 三合一—— AI 计算训练大脑、图形渲染构建仿真环境、物理引擎模拟真实交互。这在传统架构中，各环节是分开不同设备执行的，这就意味着开发者不得不在异构平台间反复切换。而摩尔线程基于 MUSA 统一架构，用同一颗芯片就能完成全部任务，数据不再需要 " 传来传去 "。

看到了这一机会，摩尔线程为具身智能专门推出了 MT Lambda ——国内首个全栈具身智能仿真平台，深度融合物理、渲染、AI 三大引擎。今年 3 月，摩尔线程开源了 MuJoCo Warp MUSA，为物理仿真平台 MuJoCo 提供了国产算力支持，在机器狗训练任务中相较 CPU 方案实现最高 40 倍加速。与智源研究院合作，基于千卡 S5000 集群完成了 RoboBrain 2.5 具身大脑模型的端到端训练，实测与国际主流 GPU 结果高度一致。与小马智行、光轮智能、五一视界的合作也在密集落地。

摩尔线程在这个赛道的卡位，本质上是在赌一个判断：物理 AI 时代，只有全功能 GPU 能同时支撑 " 思考 " 与 " 行动 " 两种计算范式。

最后，依然是老生常谈的国产 GPU 突破最重要的生态难题。在这一部分，摩尔线程也介绍了不少新的进展。

目前，MUSA SDK 5.1.0 兼容 CUDA 12.8，核心 API 兼容数达 761，PyTorch 全量 3194 个算子 100% 兼容。软件工具层面，摩尔线程获得了 SGLang、vLLM、TileLang 三大全球顶级推理框架的官方原生支持。这意味着国产 GPU 开始从 " 兼容可用 " 走向 " 被主流生态主动接纳 "。在开发者社区层面，目前摩尔线程也拥有 45 万 + 的社区开发者和 200+ 高校覆盖，这些也能为长期生态建设提供了基础。

但必须指出的是，生态建设没有捷径。从兼容 CUDA 到建立真正自主的 MUSA 原生生态，从跟随到引领，这才是真正的长征。

国产 GPU 的竞争正在从 " 有没有 "，进入 " 能不能打 " 的第二阶段。

根据 IDC 数据显示，2025 年中国 AI 加速卡总出货量约 400 万张，其中国产厂商交付约 165 万张，国产份额达 41%。这组数据已经证明，中国 GPU 不仅能用，而且已经开始承担 AI 算力市场的重要角色。

在这一变局中，摩尔线程作为对标英伟达的玩家，正在用统一架构打通云边端，用全功能 GPU 卡位物理 AI 时代。至于统一架构能否支撑摩尔线程从 " 国产替代 " 真正走向 " 国际竞争 "？接下来 AICUBE 的京东预售数据和夸娥集群的订单增速，会在今年给出初步答案。

或许，摩尔线程的未来仍然是辛苦的。

根据公司财报显示，摩尔线程 2025 年营收 15.06 亿元、同比增长 243%，2026 年一季度营收 7.38 亿元、同比增长 155% ——高增速背后，是摩尔线程从 " 卖芯片 " 向 " 卖算力基础设施 " 的转型加速。

但无论如何，摩尔线程已经证明了一件事：国产 GPU 不仅可以追随，也可以尝试定义一条属于自己的技术路线。

光锥智能"AI 交流群 "已建立，

感兴趣的朋友可以添加小助手微信（GZZN2019）沟通进群。

联系我们

王一粟

创始人 / 主编

ID：cishicike000

商务合作请添加微信：GZZN2019

转载开白请留言或添加微信：GZZN2019

进群交流请添加微信：GZZN2019

※添加时请备注公司 + 姓名 + 来意

「往期精彩推荐」

深度研报：

AI 大爆炸：

云计算：

数智化案例：

更多精彩内容，欢迎关注：

宙世代

一起剪

相关标签