使DeepSeek模型推理加速150%，摩尔线程首次提出“AI工厂”

摩尔线程创始人、CEO 张建中

继英伟达之后，国产通用 GPU 公司摩尔线程也要发力 "AI 工厂 " 理念。

7 月 26 日消息，2025 世界人工智能大会（WAIC）期间，摩尔线程创始人兼 CEO 张建中宣布，为应对生成式 AI 爆发式增长下的大模型训练效率瓶颈，公司将通过系统级工程创新，构建新一代 AI 训练基础设施，致力于为 AGI 时代打造生产先进模型的 " 超级工厂 "。

张建中表示，除了语言模型之外，所有人都在把模型能力拓展到多模态和世界模型，甚至于具身智能和三维空间里的模拟仿真，它需要大型 AI 计算基础设施，但要想建立大型基础设施的难度就好比建一个 Foundry（晶圆厂）一样，所以他称之为 "AI 工厂 "（AI Foundry）。Foundry 是生产芯片的，而 AI Foundry 是生产智能的，而摩尔线程提出的 "AI 工厂 "，如同芯片晶圆厂的制程升级，是一个系统性、全方位的变革，需要实现从底层芯片架构创新、到集群整体架构的优化，再到软件算法调优和资源调度系统的全面升级。其中，基于 Triton-MUSA 编译器 + MUSA Graph，基于 " 平湖 " 架构的 MTT S5000 GPU 可实现 DeepSeek R1 推理加速 1.5 倍（150%）。

张建中强调，我们正迎来前所未有的生成式 AI 技术变革，而大模型的发展非常 " 卷 "，从 DeepSeek V3 发布以来，短短半年，全球前沿模型 DeepSeek 的 " 智力 " 水平提升 50%，远超人类智力水平的增长速度。

" 这是一件很可怕的事情，首先我们不要跟模型斗，要把它用好，它是你的 Agent，你不能变成它的 Agent。短短几个月，Grok 4 直接飙到世界第一，马斯克只有一个秘诀，就是买了 20 万张 GPU 卡，所以它可以‘卷’成世界第一，用很少的人力，但用强大的财力、强大的算力，所以就是靠算力推动智力的革命。" 张建中称。

据悉，摩尔线程成立于 2020 年 6 月，以全功能 GPU 为核心，致力于向全球提供加速计算的基础设施和一站式解决方案。摩尔线程创始人兼 CEO 张建中曾任英伟达全球副总裁、中国区总经理，在 GPU 这一行业已经深耕近二十年。

成立以来，摩尔线程以自主研发的全功能 GPU 为核心，致力于为 AI、数字孪生、科学计算等高性能计算领域提供计算加速平台，公司已推出四代 GPU 架构，其芯片采用先进 MUSA 技术，并拓展出覆盖 AI 智算、云计算和个人智算等应用领域的计算加速产品矩阵，满足政务、企业及个人消费者等多层次、多样化需求。

启动 IPO 之前，摩尔线程已经完成了多轮融资，整个融资规模超过 40 亿元。投资方包括中国移动、深创投、上海国盛、中银国际、建银国际、招商局创投、中关村科学城、红杉资本等基金和机构。最近一轮投前估值 246.20 亿元。

业务方面，基于自主研发的 MUSA 架构，公司成功开发出支持 AI 计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码等多场景的全功能 GPU 芯片。公司四年推出四代 GPU 芯片架构、四颗 GPU 芯片系列——苏堤、春晓、曲院和平湖，流片成功 / 发布时间分别是 2021 年、2022 年、2023 年和 2024 年，覆盖 AI 智算、专业图形加速及桌面级图形加速等领域，主要生产方式包括板卡 / 模组、一体机、集群设备等，客户包括百度（北京百度网讯科技有限公司）、京东平台、中国邮电器材集团等多家头部公司。

2022 年，摩尔线程推出国产游戏显卡 MTT S80，被誉为 " 国产游戏第一卡 "，也是国内极少数可以支持 DirectX 12 的消费级显卡。此外，在数据中心 GPU 部分，摩尔线程还发布了 MTT S4000、S5000 等多款计算卡，并拥有千卡智算集群、自有的万卡集群方案。

招股书中显示，MTT S80 显卡性能规格与英伟达 RTX 3060 相当，公司在两年时间内先后完成 24 版驱动更新，显卡性能表现提升数倍，成功兼容近千款游戏和应用。

目前，摩尔线程已成功自主研发并量产第四代高性能 GPU 架构 " 平湖 "，并基于此推出了十余款高性能 GPU 加速卡与模组，以及 D800 计算服务器和 KUAE 智能计算集群等产品，构建了包含芯片设计、硬件产品及软硬件一体化解决方案的全方位自主可控产品体系。

据悉，最新采用 " 平湖 " 架构的摩尔线程 MTT S5000 加速计算卡对标英伟达 H100 产品，其 FP8 计算能力适合对 DeepSeek-V3/R1 MoE 大模型进行训练。

如今，基于通用 GPU 的全方位的自主可控产品体系，张建中提出了摩尔线程更大的 " 野心 "：AI 工厂（AI Foundry）。

事实上，英伟达最先提出了 "AI 工厂 "（AI Factory）这一概念，原因在于，英伟达认为与传统数据中心不同，AI 工厂不仅存储和处理数据，还能大规模生产智能，将原始数据转化为实时洞察，对于世界各地的企业和国家而言，这意味着显著缩短价值实现时间，将 AI 从一项长期投资转化为提升竞争优势的直接驱动力，从而让企业未来将在创新、效率和市场差异化方面引领行业。

那么，在 "AI 工厂 " 设计中，英伟达提供强大的计算性能、高级网络、基础设施管理和工作负载编排、最大的 AI 推理生态系统、存储和数据平台、设计和优化蓝图、参考架构、为每个企业提供灵活部署等完整、集成的 AI 工厂堆栈，其中从芯片到软件的每一层都针对大规模训练、微调和推理进行了优化。这种全栈式方法确保企业能够部署经济高效、性能卓越且面向未来的 AI 工厂，以应对 AI 的指数级增长。

黄仁勋曾提到，借助基于英伟达 Blackwell Ultra 的 GB300 NVL72 机架级解决方案，AI 工厂可实现高达 50 倍的 AI 推理输出。

相比英伟达的 "AI 工厂 " 理念，摩尔线程 "AI 工厂 "（AI Foundry）的核心在于基于全功能 GPU 通用算力，以系统化创新和工程化的能力提升先进模型生产效率。

在张建中看来，打造 AI 工厂，摩尔线程主要拥有五个技术竞争力：1、拥有全功能 GPU，功能完备精度完整，实现加速计算通用性；2、自研 MUSA 架构，提升芯片有效算力；3、MUSA 全栈系统软件，提升单节点计算效率；4、自研 KUAE 大规模集群，优化集群效率；5、零中断容错技术，提升集群的稳定性和可靠性。

数据显示，基于第四代 " 平湖 " 架构，摩尔线程的 AI 加速系统（TCE/TME）全面支持 INT8/FP8/FP16/BF16/TF32 等多种混合精度计算，在保证计算精度的同时，将 Transformer 计算性能提升约 30%；内存系统方面，实现了 50% 的带宽节省和 60% 的延迟降低；独创的 ACE 异步通信引擎减少了 15% 的计算资源损耗，MTLink2.0 互联技术提供了高出国内行业平均水平 60% 的带宽；核函数启动时间缩短 50%；GEMM 算子算力利用率达 98%，Flash Attention 算子算力利用率突破 95%；MCCL 通信库实现 RDMA 网络 97% 带宽利用率；将百 GB 级备份恢复时间从数分钟压缩至 1 秒，提升 GPU 有效算力利用率。

张建中表示，依托 AI 工厂，摩尔线程成功构建起覆盖 " 训练 - 推理 - 部署 " 全流程高效体系，从图形渲染基石到 AI 算力引擎，摩尔线程以 "KUAE+MUSA" 为智算业务核心，加速赋能千行百业，推动全功能 GPU 驱动的 AI 技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。

这意味着，国产计算基础设施已具备支撑 AGI（通用人工智能）时代规模化、高效率、高可靠模型生产的关键能力。

当前摩尔定律收入、研发费用不断增加。招股书显示，2022 年、2023 年、2024 年，摩尔线程营业收入分别为 0.46 亿元、1.24 亿元、4.38 亿元，三年营业收入复合增长率 208.44%，累计营收 6.09 亿元；三年研发费用分别为 11.16 亿元、13.34 亿元、13.59 亿元，累计研发费用超过 38 亿元。

（本文首发于钛媒体 App，作者｜林志佳，编辑｜盖虹达）

宙世代

一起剪

相关标签