新浪VR 12小时前
摩尔线程“全功能GPU”持续发力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

随着 AI 与物理世界融合的加速,单一功能 GPU 已难以满足复杂场景的混合计算需求,全功能 GPU 凭借其多元计算能力和生态兼容性,成为全球 GPU 技术演进的重要方向。

在国际上,英伟达(NVIDIA)凭借其完整的 CUDA 生态和产品线,是全功能 GPU 的典型代表。在中国,摩尔线程智能科技(北京)股份有限公司是首家实现全功能 GPU 量产的企业,其自研 MUSA 架构及多代芯片产品已广泛应用于 AI 智算、游戏图形等领域,并构建了完整的软件栈,成为该技术路线在国内落地的标杆。

全功能 GPU 是指同时具备功能完备性与精度完整性的通用 GPU。

功能完备性:在单一 GPU 芯片中集成了 AI 计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码等多种能力,满足多样化的计算需求;

精度完整性:单一芯片支持 FP64、FP32、TF32、FP16/BF16、FP8、INT8、FP6、FP4 等不同计算精度,以满足 GPU 加速不同场景的计算需求。

全功能 GPU 的设计理念是 " 一芯多能 ",即在单块芯片上实现多种任务的协同处理,避免数据在不同功能芯片间的传输延迟,提升整体计算效率。

根据功能侧重点不同,可将当前市场上的 GPU 产品分为以下三类:

全功能 GPU,核心功能是渲染 +AI 计算 + 科学计算 + 物理仿真 + 视频编解码,典型应用场景在 AI 训练 / 推理、图形渲染、科学计算等领域,代表厂商有英伟达、摩尔线程。

图形 GPU,核心功能是专注图形渲染,典型应用场景在 PC 游戏、数字办公,代表厂商有 AMD、英特尔、景嘉微。

GPGPU,核心功能是专注通用 /AI 计算,典型应用场景在 AI 智算中心、高性能计算,代表厂商有 AMD、沐曦、壁仞、天数智芯。

主要对比基于 GPU 架构的不同技术路线。寒武纪、华为昇腾属 AI 专用芯片,非 GPU 架构。天数智芯、沐曦等为 GPGPU 路线,专注 AI 计算;摩尔线程是目前国内唯一实现全功能 GPU 量产的企业。

对于全功能 GPU 的核心技术,全功能 GPU 通常采用统一系统架构,将图形渲染、AI 计算、科学计算、视频编解码等多功能引擎集成于单芯片,通过统一的指令集、编程模型和内存管理,实现多任务的协同处理。国际上,英伟达的 CUDA 架构是这一路线的典型代表;在国内,摩尔线程通过自主研发实现了类似的全功能 GPU 架构。

而摩尔线程全功能 GPU 的核心架构为自主研发的 MUSA,覆盖从芯片设计、指令集、编程模型到软件栈的全栈技术体系。2025 年 12 月,摩尔线程发布新一代全功能 GPU 架构‘花港’,其算力密度提升 50%,计算能效实现 10 倍提升,并支持从 FP4 到 FP64 的全精度计算。

基于‘花港’架构,摩尔线程规划了两条芯片技术路线:‘华山’系列专注 AI 训推一体与超大规模智算;‘庐山’系列专攻高性能图形渲染。

其软件生态包括 MUSA 软件开发套件(MUSA SDK)、AI 训练套件(KUAE Training Suite)与 AI 推理套件(KUAE Inference Suite)、MUSIFY 代码移植工具等,原生适配 PyTorch、Megatron-LM、vLLM 及 SGLang 等主流框架,致力于构建开放且兼容 CUDA 的开发者生态。

通过自研的 MTLink 高速互联技术,其支撑的夸娥智算集群可从千卡扩展至万卡乃至十万卡规模。基于 MTT S5000 构建的万卡集群已成功部署并上线服务,其浮点运算能力达到 10Exa-Flops,在 Dense 模型训练中 MFU 达 60%,在 MoE 模型中维持在 40% 左右,有效训练时间占比超过 90%,训练线性扩展效率达 95%,多项关键指标均达到国际主流水平。

在图形技术方面,其产品已全面支持 DirectX 12、OpenGL 4.6、Vulkan 1.3 等主流 API,并实现了硬件光线追踪加速与自研的 AI 生成式渲染(AGR)技术。

近年来,随着大模型和物理 AI 的兴起,全功能 GPU 成为行业技术演进的核心方向。在中国,摩尔线程的发展轨迹如下:

摩尔线程成立于 2020 年 10 月,创始人为前英伟达全球副总裁、中国区总经理张建中。2022 年 3 月,摩尔线程发布全新 MUSA 统一系统架构及第一代全功能 GPU 芯片 " 苏堤 "。2022 年 11 月,摩尔线程发布第二代全功能 GPU 芯片 " 春晓 ",并推出首款国产游戏显卡 MTT S80。

2023 年 9 月,摩尔线程发布第三代全功能 GPU 芯片 " 曲院 ",推出大模型智算加速卡 MTT S4000 及夸娥千卡智算集群。2023 年 12 月,首个全国产千卡千亿模型训练平台——夸娥智算中心揭幕。2024 年 7 月,夸娥智算集群解决方案从千卡级别升级至万卡规模。2024 年 9 月,摩尔线程获评国家级专精特新 " 小巨人 " 企业。

2025 年 12 月,在首届 MUSA 开发者大会上,摩尔线程发布第五代全功能 GPU 架构 " 花港 " 及未来芯片路线图,并展示了夸娥万卡智算集群。基于 " 花港 " 架构的两颗芯片 " 华山 " 和 " 庐山 " 预计于 2026 年面市,其中 " 华山 " 专注 AI 训推一体与超大规模智能计算," 庐山 " 专攻高性能图形渲染。截至 2025 年,摩尔线程拥有超过 500 项授权专利。

2026 年 2 月 24 日,摩尔线程宣布其 AI 训推一体全功能 GPU MTT S5000 与五一视界下一代智驾仿真平台 SimOne 4.0 已完成系统性适配与深度优化,首次将国产算力与端到端智能驾驶仿真体系完整打通。2026 年 2 月 27 日,摩尔线程公告 2025 年营收增至 15 亿元,同比增长超过 2 倍,亏损同比收窄约 37%。2026 年 2 月,摩尔线程宣布 MTT S5000 与智谱、MiniMax 等国产 SOTA 大模型完成适配。

摩尔线程基于全功能 GPU 构建了覆盖 AI 智算、图形渲染等应用领域的多元计算加速产品矩阵,建立了从芯片、板卡到集群的全栈智算产品线,覆盖从云到端的完整场景,其核心产品主要包括消费级游戏显卡及专业图形显卡、云端 AI 智算产品、边缘及端侧 AI 智算产品以及其他产品。

摩尔线程提出的全功能 GPU 概念下的产品有以下几款。

MTT S80 搭载完整的 " 春晓 " 核心,内置 4096 个 MUSA 核心,配备 16GBGDDR6 显存,采用 PCIe 5.0 接口,核心频率 1.8GHz,单精度浮点算力 14.4 TFLOPS。MTT S70 拥有 3584 个 MUSA 核心,配备 7GB GDDR6 显存,采用 PCIe 4.0 接口,核心频率 1.6GHz,单精度浮点算力 11.2 TFLOPS。MTT S30 定位为入门级产品。MTT S80 是国内首款支持 Windows 操作系统及 DirectX 11/12 的游戏显卡,同时支持 OpenGL 4.6 和 Vulkan 1.3,可流畅运行《黑神话:悟空》等顶级 3A 大作。

专业图形显卡包括 MTT X300 等系列产品,以及基于前述显卡打造的工作站解决方案,已深入应用于工业设计、地理信息等关键行业,并通过多项国产化认证,为用户提供稳定高效的计算加速支持。该系列产品广泛兼容 Windows、麒麟 KylinOS、统信 UOS、openEuler 等国内外主流操作系统,以及 Intel、AMD、海光、飞腾、鲲鹏等国内外主流 CPU 平台。

AI 智算产品包括 AI 训推一体智算卡 MTT S5000,基于第四代 MUSA 架构 " 平湖 " 打造,专为大模型训练、推理及高性能计算设计,单卡 AI 算力(稠密)最高可达 1000 TFLOPS,并完整支持从 FP8 到 FP64 的全精度计算,在 DeepSeek R1 671B 模型上单卡 Prefill 吞吐突破 4000 tokens/s;此外,AI 大模型智算卡 MTT S4000,是一款基于 " 曲院 " 芯片的训推一体加速卡,配备 48GB 显存并支持千卡集群部署,已通过中国信通院 AI 芯片和大模型适配验证。

夸娥(KUAE)智算集群,支持千卡至万卡规模,专为大模型训练打造。目前,基于 MTT S5000 构建的夸娥万卡集群已成功部署并上线服务,其浮点运算能力达到 10Exa-Flops,在 Dense 模型训练中 MFU 达 60%,在 MoE 模型中维持在 40% 左右,有效训练时间占比超过 90%,训练线性扩展效率达 95%,多项关键指标均达到国际主流水平,旨在为 AGI 时代打造生产智能的 "AI 工厂 "。

边缘及端侧 AI 智算产品

在边缘及端侧智算领域,摩尔线程推出了搭载自研智能 SoC" 长江 " 的 AI 算力本 MTT AIBOOK 与边缘计算模组 MTT E300。其中,专为 AI 学习与开发者打造的 MTT AIBOOK,致力于成为 Agentic AI 时代的 " 个人智算平台 " 与创新引擎,全面加速新一代智能终端和智能体应用的发展。以 " 长江 " 为代表的智能 SoC 系列产品,正广泛赋能边缘智能、具身智能、工业智造、智能汽车以及低空经济等多元场景。通过与云端智算产品的深度协同,公司成功打通了 " 云 - 边 - 端 " 一体化解决方案,全面满足各类场景下的 AI 训推需求。

其他产品还包括云端渲染卡 MTT S3000、云端专业图形加速卡 MTT S2000,针对移动云电脑优化的移动云定制渲染显卡 C3150 等。

摩尔线程提出的全功能 GPU 在性能与市场等方面表现具有以下优势。

摩尔线程 MTT S80 作为首款支持 Windows 环境及 DirectX 图形接口的国产游戏显卡,自 2022 年 11 月发布以来,通过持续高频的驱动更新,其游戏兼容性与性能得到显著提升。同时,摩尔线程的 AI 智算产品线(如 MTT S5000 及夸娥智算集群)在专业计算与大模型训练领域取得突破,推动公司营收结构向 AI 算力主导转型。

作为国内首款支持 Windows 及 DirectX 11/12 的消费级显卡,MTT S80 自发布以来保持着平均每 30 天发布一个新版本驱动的高频迭代节奏,截至 2026 年初,Windows 驱动已累计更新 37 版。通过驱动迭代,MTT S80 已实现对 China Top 50 热门游戏的 100% 兼容,累计正式发布适配和优化的游戏超过 220 款,包括《只狼:影逝二度》、《博德之门 3》等。在具体游戏表现上,MTT S80 在《英雄联盟》1080P 最高画质下平均帧率可达 380-410 帧,在《原神》1080P 全高画质下平均帧数约 50 帧,在部分 3A 游戏如《黑神话:悟空》中画质下可达 45 帧。其性能对标已从早期的 GTX 1650 提升至接近 RTX 3060 的水平。

摩尔线程旗舰级 AI 训推一体全功能 GPU MTT S5000 支持 FP8 到 FP64 的全精度计算,其单卡 AI 算力(FP8)最高可达 1000 TFLOPS,显存容量为 80GB,显存带宽达到 1.6TB/s,卡间互联带宽为 784GB/s。业内人士表示,MTT S5000 实测性能对标 H100,在多模态大模型微调任务中,部分性能甚至超越 H100。

作为国内一批最早原生支持 FP8 精度的训练 GPU,S5000 配置了硬件级 FP8 Tensor Core 加速单元,其 FP8 引擎全面支持 DeepSeek、Qwen 等前沿架构,可提升 30% 以上训练性能。

基于 S5000 构建的夸娥万卡集群已经落地,其浮点运算能力达到 10Exa-Flops,在 Dense 模型训练中 MFU 达 60%,在 MoE 模型中维持在 40% 左右,有效训练时间占比超过 90%,训练线性扩展效率达 95%,其中 Flash Attention 算力利用率超过 95%,多项关键指标均达到国际主流水平。

在 AI 训练性能方面,2026 年 1 月,智源研究院基于 S5000 千卡集群,完成了前沿具身大脑模型 RoboBrain 2.5 的端到端训练与对齐验证。结果显示,与英伟达 H100 集群的训练结果高度一致,训练损失值(loss)差异仅为 0.62%。在 CrossPoint、Q-Spatial、VABench-V 等任务上算法效果表现更优,验证了其作为顶级训练底座的可靠性。

在 AI 推理性能方面,MTT S5000 在 DeepSeek R1 671B 全量模型上实现了单卡性能突破,Prefill 吞吐突破 4000 tokens/s,Decode 吞吐突破 1000 tokens/s。其 AI 智算产品 MTT S4000 已通过中国信通院的 AI 芯片和大模型适配验证。夸娥(KUAE)智算集群已升级至万卡规模,具备支撑万亿参数模型训练的工程化能力。

软件生态方面,摩尔线程提供了 MUSA SDK 5.0 全栈软件支持。依托 MUSA 全栈软件平台,原生适配 PyTorch、Megatron-LM、vLLM 及 SGLang 等主流框架,让用户能够以 " 零成本 " 完成代码迁移。无论是构建万卡级超大规模训练集群,还是部署高并发、低延迟的在线推理服务,摩尔线程均展现出对标国际主流旗舰产品的卓越性能与稳定性。

MTT S80 作为首款国产游戏显卡,其市场活动引发广泛关注,例如在 2025 年的一次促销活动中,短时间内售出数万片。公司营收快速增长,2025 年预计收入约 15 亿元,同比增速超过 230%。自 2024 年起,AI 智算产品线成为公司营收的绝对主力,2025 年上半年占比已达 94.82%,标志着公司成功向 AI 算力领域战略转型。面向未来,摩尔线程摩尔线程持续对标国际主流产品,在算力性能、软件生态等方面加速追赶,致力于为国内用户提供更完善的国产 GPU 解决方案。

摩尔线程致力于打造拥有自主知识产权的全功能 GPU,其产品具备图形渲染、AI 计算、科学计算和视频编解码四大引擎,并以 " 在地化 " 方式贴合中国市场需求。作为国内具备消费级游戏显卡研发能力的厂商之一,其产品为信创产业和消费市场提供了国产化算力选项。

在软件生态方面,摩尔线程以自主研发的 MUSA 统一系统架构为核心,通过对 CUDA 生态的兼容和提供自动化迁移工具(如 MUSIFY),有助于降低开发者的迁移成本。具体而言,MUSA 架构具备兼容性强、工具多的特点,其自带接口能对接 GLM-5、MiniMax M2.5 等主流大模型,并兼容英伟达主导的主流 GPU 生态;同时提供如原生 FP8 加速、SGLang-MUSA 引擎调优等工具,帮助开发者降低迁移与部署难度。公司推进开源与社区共建,支持 PyTorch、TensorFlow、PaddlePaddle 等主流 AI 框架的 MUSA 后端。为培育人才,摩尔线程打造了 " 摩尔学院 " 平台,构建线上线下一体化培训体系,并与上海交通大学、浙江大学等高校开展产教合作。截至 2025 年底,其开发者生态已吸引约 20 万名开发者。根据 2026 年 2 月的报道,摩尔学院通过 " 国产计算生态与 AI 教育共建行动 ",将前沿技术与产业实践带入全国 200 多所高校。同时,公司还发布了 MUSA 开发者计划,旨在为 AI 学习者提供算力支持与技术赋能。

针对移动云电脑优化的移动云定制渲染显卡 C3150,摩尔线程与行业企业开展合作,以推动国产 GPU 在更多场景落地。例如在 2024 年中国移动全球合作伙伴大会上,摩尔线程作为中国移动投资的 GPU 企业,联合发布了全栈自主可控的人工智能基础设施与绿色低碳创新成果,并加入了由中国移动发起的 " 中小企业数智生态联盟 "。双方还展示了为移动云电脑、云手机等场景优化的定制渲染显卡等解决方案。

2026 年 2 月 24 日,摩尔线程宣布其 AI 训推一体全功能 GPU MTT S5000 已与五一视界下一代智驾仿真平台 SimOne 4.0 完成系统性适配与深度优化,首次将国产算力与端到端智能驾驶仿真体系完整打通,标志着从芯片、仿真引擎到上层应用的国产软硬件生态闭环正加速形成。

此外,2026 年春节前后,MTT S5000 凭借 MUSA 架构的生态兼容性和广泛的算子库,已完成对 GLM-5、MiniMax M2.5、Kimi K2.5、Qwen3.5 等 SOTA 大模型的深度适配。

2026 年 3 月,依托 OISA 协同创新平台,摩尔线程、中国移动研究院、之江实验室等产业伙伴正式发布《OISA 高密超节点参考设计技术规范》。该规范针对当前智算中心面临的互联瓶颈、供电压力及散热极限,提出了全栈式解决方案,为构建自主可控、高性能的智算集群奠定了关键技术基石。

通过从单芯片到万卡集群(如 " 夸娥 " 智算集群)的全栈布局,摩尔线程参与国产 GPU 技术标准制定与产业竞争。其全功能 GPU 路线以及对主流生态的兼容性,使其在 AI 计算、图形渲染等多场景中得到应用。

2026 年 2 月 27 日,摩尔线程(688795.SH)发布《2025 年度业绩快报》。报告期内,该公司 2025 年营收为 15.05 亿元,较 2024 年同期增长 243.37%。归属于母公司所有者的净利润为 -10.24 亿元,与上年同期相比,亏损收窄幅度为 36.70%。基本每股收益、加权平均净资产收益率同比均有所改善。

对于此次业绩,摩尔线程方面表示,人工智能产业发展及市场对高性能 GPU 的需求,推动了公司收入与毛利增长,整体亏损幅度同比收窄。AI 智算类业务贡献超九成营收。

摩尔线程的智算卡 MTT S5000 正加速量产,基于该产品搭建的大规模集群已上线服务,可支持万亿参数大模型训练。2026 年春节前后,基于 MUSA 架构,摩尔线程 S5000 已完成对 GLM-5、MiniMax M2.5、Kimi K2.5、Qwen3.5 等大模型的适配。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论