快科技 5 月 1 日消息,摩尔线程的旗舰级 AI 训推一体智算卡 MTT S5000,搭配自研的 MUSA 软件栈,基于 SGLang 开源推理框架,成功完成了 DeepSeek-V4 的完整运行验证。
至此,摩尔线程已构建起从硬件架构核心计算引擎承接、热点算子支持,再到端到端部署验证的系统化适配链路,证明国产 GPU 可以实现前沿大模型的 " 框架级兼容、开箱即落地 "。
随着大模型架构持续演进,DeepSeek-V4 等先进模型对底层精度能力、算子覆盖、编译优化、并行通信和推理效率提出了严苛要求。
摩尔线程充分发挥 S5000 原生 FP8 算力、MUSA 对 CUDA 深度兼容、TileLang MUSA 编译器对 TileLang 生态完美支持等优势,结合 TileKernels 开源库复用,基于 TileLang 快捷开发自定义算子等手段,快速打通了 DeepSeek-V4 推理适配链路。
值得注意的是,TileLang-MUSA 已正式进入 TileLang 官方主线,实现了对 DeepSeek-V4 最新发布 TileLang 算子库 TileKernels 的 Day-0 无缝支持。
这意味着,MUSA 平台已具备承载前沿 LLM 算子生态的工程基础,为后续先进开源模型适配提供了直接复用的算子通路。
▼ TileKernels 算子库开源地址:
▼ TileLang-MUSA 开源地址:
https://github.com/tile-ai/tilelang-musa

三层技术路径完成 DeepSeek-V4 工程化适配
本次适配验证了一条新模型快速推理部署的系统化工程路径:
通过 MUSA 对 CUDA 的全栈兼容,实现核心主流 AI 框架快速适配,复用开源 TileKernels 算子替代标准融合模式,并借助 AI Agent 基于 TileLang 完成模型特异性算子的快速开发与验证。
首先,MUSA 软件栈提供了 FlashMLA、DeepGEMM、DeepEP 等 DeepSeek 开源仓库的兼容实现,使得推理依赖的 Attention、FP8 GEMM、MoE dispatch/combine 等关键计算、通信算子能够在 S5000 上快速适配。
其次,面向 SwiGLU + FP8 quant 等标准融合模式,S5000 可直接复用 DeepSeek TileKernels 原生算子实现 Day 0 开箱适配,通过摩尔线程 MATE 开源算子库在 layout、dtype、scale contract 及接口层面与 DeepGEMM 深度兼容,消除热点算子的格式、接口对齐开销。
得益于 MUSA 对 AI 软件生态良好的兼容性,DeepSeek-V4 在 MUSA 平台上可实现从核心算子适配,到端到端拉起,再到系统级性能调优的工程级加速。
最后,针对 DeepSeek-V4 高度特异化的计算负载,摩尔线程借助 AI Agent 实现 TileLang Kernel 自动生成及调试,围绕算子语义分析、接口适配、Kernel 实现与正确性及精度验证等环节提升开发效率,完成 RMSNorm、RoPE、Compress、Topk 等多个核心自定义算子快速开发、集成。
该方案在保证计算语义零偏差的前提下,显著压缩了 Kernel 级开发及适配周期,并进一步释放关键算子的性能,例如,RMSNorm 等带宽瓶颈算子带宽利用率可达 80%。
原生 FP8 支持增强混合精度推理
上述三层路径快速打通,得益于摩尔线程 S5000 原生 FP8 算力底座支撑,完整承接前沿混合精度模型推理需求,在保持模型精度的同时,实现高吞吐、低显存占用与显存带宽的高效利用。
该能力深度对齐 DeepSeek V4 等先进 MoE 模型的精度演进范式,确保 DeepGEMM、FlashMLA、DeepEP 等核心算子在 MUSA 平台上快速适配。
围绕原生 FP8 能力,摩尔线程已完成涵盖激活量化(SwiGLU FP8 quant)、MoE 路由(routing)、注意力预处理(attention-prep)、缓存管理(FlashMLA cache store / paged metadata)及解码压缩(compressor decode/prefill)在内的关键模块适配,并通过多层回归测试,完成关键路径正确性与稳定性的验证。
FlashMLA DSA 极致优化,释放长上下文推理性能
在完整模型链路适配的基础上,摩尔线程在 S5000 上针对 FlashMLA DSA 的 Prefill(预填充)与 Decode(解码)场景开展了专项优化,采用了一致的底层优化逻辑:
紧密围绕 DeepSeek-V4 KV Cache 的数据组织模式,直接完成稀疏 KV 读取、Cache Layout 解析、Attention 计算及结果写回,有效消除了额外的缓存重排(Rearrangement)开销,同步支持 Original + Extra 双路 KV Cache 机制及动态 Top-k 长度,通过 TileLang 对 DSA 算子进行深度优化,显著提升了长上下文与稀疏注意力场景下的计算效率,最终 DSA Prefill 及 Decode 算子 BF16 Tensor 算力利用率可达 50%,未来还会继续推进优化。
四层验证体系,确保生产级稳定和确定性
围绕完整推理链路,摩尔线程建立了覆盖 MUSA Kernel 验证、算子级精度对齐、优化路径选择、端到端场景回归四层验证体系,确保关键算子在实际运行中的正确性及稳定性。
当前,摩尔线程基于 DeepSeek-V4 的工作已进入性能调优、长上下文能力完善与生产级稳定性验证阶段。
▼ DeepSeek-V4 推理服务部署指南:
https://blog.mthreads.com/blog/AI/2026-04-30-DeepSeek-V4%20%E6%8E%A8%E7%90%86%E6%9C%8D%E5%8A%A1%E9%83%A8%E7%BD%B2%E6%8C%87%E5%8D%97/


登录后才可以发布评论哦
打开小程序可以发布评论哦