摩尔线程新一代架构支持十万卡集群！性能超NVIDIA

快科技 12 月 20 日消息，在今天的首届 MUSA 开发者大会上，摩尔线程正式发布了新一代 GPU 架构 " 花港 "，并带来了首款基于 " 花港 " 的云端 AI 加速 GPU" 华山 "。

" 华山 " 芯片可应用于超十万卡级的 AI 工厂，其搭载新一代 Scale-up 系统，兼容 MTLink 4.0 和多种以太协议，适配多种 Scale-up switch，支持 SHARP，片间互联速率可达 1314GB/s。

据介绍，KUAE 万卡群浮点运算能力可达 10 Exa - FLOPS，精度模型效果优于国际主流，大模型 MFU 可达 60%。

此外，集群有效训练时长达到 90%，零中断技术理论可达 99%，万卡集群训练线性度达到了 95%，性价比更是达到 HXX（H20）的 1.5 倍。

根据官方数据，在 DeepSeek R1 全量模型分布式推理性能方面，MTT S5000 的 PD 分离 - 分布式集群， DeepSeek Prefill Only 性能单卡吞吐达到 H20 的 2.5 倍，DeepSeek Decode 单卡吞吐达到 1.3 倍。

宙世代