时代财经 5小时前
上市半月后,摩尔线程技术路线图全面曝光!冲击十万卡集群
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

本文来源:时代财经 作者:郭美婷

上市 15 天后,摩尔线程(摩尔线程 -U,688795.SH)向外界秀出了自己的 " 肌肉 "。

12 月 20 日 -21 日,摩尔线程首届 MUSA 开发者大会(MDC 2025)举办,摩尔线程创始人、董事长兼 CEO 张建中一连公布了一系列技术与产品进展,其中包括全新架构 " 花港 ",基于该架构的 " 华山 "、" 庐山 " 芯片,智能 SoC 芯片 " 长江 ",以及夸娥万卡智算集群和 AI 算力本 MTT AIBOOK 等。

图源:截图自摩尔线程直播

业界惯将摩尔线程比作 " 中国的英伟达 ",在发布会上,张建中也未避讳提到与英伟达的对比。以最新发布的 " 华山 " 芯片为例,张建中表示," 华山 " 的访存带宽、浮点算力和高速互联带宽三个指标能力介于英伟达的最新架构 Blackwell 和上一代架构 Hopper 之间,而访存容量则高于二者。

图源:截图自摩尔线程直播

" 过去,大部分大模型开发者不敢用国内的卡训练,怕训练的结果不好。" 张建中说," 我们可以有信心地跟大家讲,如果你以前是在 Hopper 上做训练,你今天用我们的 S5000 去训练你的大语言模型,效果只会比它好,不会比它差。"

在现场,多位摩尔线程的合作企业和开发者告诉时代财经,得益于 MUSA 框架对 CUDA 的兼容性,迁移至 MUSA 生态的难度相较于其他国产芯片更低,但迁移后仍会存在接口适配、功能适应等问题,"(生态)还处于爬坡阶段。" 一位企业开发者提到。不过,未来随着厂商积极推进适配优化以及生态内的联动加强,生态成熟度也将持续提升。

新架构和新芯片

从发布节奏来看,摩尔线程基本保持一年一迭代的节奏。从 2022 年的苏堤开始,到春晓、曲院、平湖,此次发布会上,摩尔线程发布了新一代全功能 GPU 架构 " 花港 "。

据了解," 花港 " 基于新一代指令集,支持 FP4 到 FP64 的全精度计算,算力密度相比上一代提升 50%,效能提升 10 倍,支持十万卡以上规模智算集群。

图源:截图自摩尔线程直播

张建中透露,基于该架构,摩尔线程公布两款芯片技术路线。一款是 " 华山 ",专注 AI 训推一体与超大规模智能计算,集成新一代异步编程与全精度张量计算单元,支持从 FP4 至 FP64 的全精度计算;另一款是 " 庐山 ",专攻高性能图形渲染,AI 计算性能提升 64 倍,几何处理性能提升 16 倍,光线追踪性能提升 50 倍,并在纹理填充、原子访存能力及显存容量方面有所增强。

此外,大会发布了夸娥万卡智算集群,浮点运算能力达到 10Exa-Flops,训练算力利用率(MFU)在 Dense 大模型上达 60%,MOE 大模型上达 40%,有效训练时间占比超过 90%,训练线性扩展效率达 95%,与国际主流生态兼容。张建中表示,2024 年摩尔线程推出第一代千卡集群,今年达到 1 万卡,接下来还要做 10 万卡、50 万卡、100 万卡。

摩尔线程针对大模型训练的挑战,打造出的夸娥万卡智算集群及其配套技术方案,可以通过软硬件协同优化保障训练稳定性与精度。张建中表示,摩尔线程选取 DeepSeek V3、DeepSeek R1 等主流模型,采用 FP8 精度进行训练复现。结果显示,其训练 loss 曲线与 Hopper 系列显卡基本上一致,而从实际测评结果来看,相同数据量、相同模型的情况下,摩尔线程的训练效果更优于国际主流显卡。

除了芯片和智算产品外,摩尔线程还发布了搭载智能 SoC 芯片 " 长江 " 的 AI 算力本 MTT AIBOOK,提供了 50TOPS 的端侧 AI 算力,支持包括 MT AIOS(Linux)、Windows 虚拟机、Android 容器和国产操作系统等多系统切换,支持开发者在不同环境下开发各种国产应用场景。" 我们把 AI 原生的应用场景都内置在这一台 AIBOOK 中,它是一台多系统随意切换的,结合开发、娱乐、办公于一体的(算力本)。" 张建中表示。

生态是关键

" 开发者是生态建设的关键,国产芯片平台必须构建起友好、易用的开发环境,以有效服务开发者社群。" 中国工程院院士、清华大学计算机系教授郑纬民在此次大会上表示。

" 生态体系是 GPU 行业的核心护城河与价值所在。" 张建中也坦言。

针对生态,摩尔线程在大会上透露,其搭建的摩尔学院有近 20 万名开发者与学习者,同时宣布建设 MUSA 生态中心,发布 MUSA 开发者计划。

事实上,此次发布的 MTT AIBOOK 本身就是一个连接开发者与 MUSA 生态的入口。据摩尔线程现场介绍,客户合作初期需要平台验证芯片的适配度,为此他们需要借助专用设备部署算法、开发待推理的模型,而 MTT AIBOOK 恰好满足了这一需求场景。

图源:时代财经摄

另外,张建中表示,摩尔线程准备做 MUSACode 代码生成大模型,MUSACode 可以做到自动化的从 CUDA 转到 MUSA,目前已经做到可编译率 93%,准确率 90% 以上。

在 MUSA 生态加速建设的过程中,大量基于传统芯片架构的开发者与企业,正面临不少要从原来的生态,迁移到 MUSA 生态的情况。

摩尔线程展区现场工作人员介绍,在传统迁移场景下,开发者面临的最大成本是代码迁移成本。由于不同硬件体系、架构体系对应的编程语法结构与算子库调用方式存在差异,迁移过程中需适配新的开发规范。为此,摩尔线程推出了相应的配套工具,可实现代码的自动化迁移,无需开发者人工重写代码,仅需进行简单的文本调整,即可实现近乎零成本的迁移。

第二类成本则是调试(debug)成本。目前,摩尔线程正逐步实现算子的百分之百替代适配。当开发者原项目中调用的各类算子,均能无缝适配 MUSA 生态对应的算子,且无运行报错时,调试工作即可完成。总体而言,开发者迁移过程中的最大成本实则为时间成本。

时代财经在展区内了解到,近年来,全链国产化愈发成为众多企业的发展趋势。

一家初创企业表示,选择摩尔线程的原因之一,是看中其全功能 GPU 定位,因为这意味着其搭建的生态能够吸引的合作伙伴可能覆盖各行各业。" 它目前比英伟达是有性价比的。" 该初创企业相关负责人表示,对于开发者而言,选择契合自身现阶段需求的产品即可满足使用要求,价格性价比也更高。

另一家工业机器人企业研发人员称,初期与摩尔线程适配时,也存在生态差别、接口不一等不适应的情况,不过经由两边的讨论协商,这些难点都得到了一一解决。" 硬件支持上一定是快速做到,只有接口适配,才能在后续进行其他功能的开发。"

尚阳科技在两年前开始适配摩尔线程的 MUSA 生态,通过摩尔线程全功能 GPU,其打造了企业级智能体引擎 Useek 曜芯智问。尚阳科技董事长李向阳向时代财经提到了摩尔线程的 GPU 全功能的定位,其能够实现了图形处理与计算功能等的一体化集成,部分性能对标英伟达产品。同时,此前多数开发者使用英伟达芯片,其调用算力所依赖的框架为 CUDA,而 MUSA 框架在对 CUDA 的兼容性上表现优异,这一点与其他平台存在显著差异,也是其核心优势所在。得益于 MUSA 框架具备深度兼容特性,开发者向该平台迁移项目时,操作流程将更为简便。李向阳称,目前他最关注的是 MUSA 生态未来在细节功能的适配上的进展。

评论
大家都在看