从代码合入到社区共聚：SGLang × MUSA Meetup圆满落幕，国产GPU开源生态进入“原生支持”时代

5 月 10 日，由摩尔线程与 SGLang 社区联合主办的 "MUSA 开源技术沙龙｜SGLang × MUSA Meetup" 在北京成功举行。

本次 Meetup 不仅集结了 SGLang 核心开发成员，并邀请到 TileLang、Triton、Mooncake 等开源社区的顶尖技术专家，吸引了近百位前沿开发者到场参与。各方围绕大模型推理引擎、算子编译、工程优化与生态共建等核心议题，展开了一场高密度、深层次的技术交流。

作为 MUSA 后端正式合入 SGLang 主线后的首场线下技术活动，此次 Meetup 集中展现了摩尔线程在推动国产 GPU 深度融入全球主流开源框架、加速 AI 软件栈生态共建方面取得的里程碑成果。基于这一官方支持体系，开发者在使用 SGLang 运行大语言模型及多模态推理任务时，已可直接调用摩尔线程全功能 GPU，无需依赖第三方适配层，国产算力与国际主流推理框架的协同由此迈入 " 原生支持 " 的新阶段。

立足通用计算，以 MUSA 开放架构拥抱开源生态

摩尔线程 CTO 张钰勃在开场致辞中，深度阐释了 MUSA（Meta-computing Unified System Architecture）统一系统架构的核心设计理念。他强调，摩尔线程始终坚持 " 通用计算 " 的初衷，以真正通用及高度统一的底层计算平台，支撑从物理世界仿真、数字孪生到具身智能的未来技术演进，不为创新设限；同时，通过全产品线 " 统一 " 的指令集与架构标准，确保软件生态能够持续沉淀与积累。

针对开发者最为关心的生态迁移体验，张钰勃表示：" 摩尔线程秉持开放的态度，MUSA 在接口设计上最大程度复用了开发者熟悉的 GPU 编程习惯。我们不希望独立创造一套封闭的生态，而是以零学习成本，全面融入现有的繁荣生态。" 基于这一开放理念，他指出，此次 MUSA 获得 SGLang 官方支持，正是摩尔线程拥抱开源社区的关键一步。未来，摩尔线程将与广大开发者并肩前行，持续在框架底层创新上贡献更多核心力量。

技术分享：从推理框架到算子内核，共探国产 GPU 落地路径

技术分享环节，SGLang、Triton、TileLang 及 Mooncake 社区的核心专家围绕推理框架、算子编译与训推系统等议题，带来了五场深度技术分享。

▼ 解析演进路线，SGLang 以创新架构挑战大模型推理极限

SGLang 核心开发成员 Xiaoyu Zhang（BBuf）重点解析了框架的关键演进：支撑 DeepSeek-V4 等模型的 Prefill-Decode 分离架构与分层缓存机制，以及 Zero?overhead Speculative Decoding 带来的推测解码效率跃升。在算子层，原有的 sgl?kernel 包因体积膨胀（超 1.5GB）已逐步迁移至全新的 Jit?kernel 体系，基于 TVM?FFI 实现按需编译，大幅提升开发与发版效率。同时，SGLang 积极引入 Vibe Coding 实践，利用 AI Agent 自动完成了超 60 项性能分析与调优任务。发布 2026 年 Q2 Roadmap 时，他明确表示摩尔线程 MUSA 已正式纳入 SGLang 硬件适配核心阵列，未来双方将深化原生算子支持，共同推动顶级推理框架与国产算力底座的 " 原生 " 级融合。

▼ 打通原生生态，MUSA 释放主流模型 " 开箱即用 " 算力

摩尔线程 Contributor ROCKSTAR 分享了 SGLang 在 MUSA 平台上的优化与工程落地实践。他重点介绍了实现快速兼容的关键—— torchada 适配层，通过一次 import torchada 即可让开发者现有 CUDA 代码无缝运行在摩尔线程 GPU 上，大幅降低适配与维护成本。在算子层面，摩尔线程开源的 MATE（MUSA AI Tensor Engine）算子库提供了高性能 Attention 与 GEMM 算子，已对接 FlashAttention、FlashMLA、DeepGEMM 等主流接口。目前，基于 MUSA 的 SGLang 已支持 DeepSeek、Qwen、GLM 等主流大模型及 Wan、LTX 等视频生成模型，在 MTT S5000 等硬件上实现真正的 " 开箱即用 " 与无缝加速，显著降低了开发者的算力迁移门槛。截至 5 月 12 日，摩尔线程在 SGLang 主线累计提交 47 个 PR，其中 41 个已合入，完成了从环境构建到分布式推理的全链路打通，为开源生态持续贡献了扎实的工程能力。

SGLang × MUSA Roadmap 地址：

https://github.com/sgl-project/sglang/issues/16565

SGLang 安装文档

https://docs.sglang.io/docs/hardware-platforms/mthreads_gpu

▼ 攻克关键算子优化，Triton 助力构建跨芯片统一软件栈

北京智源人工智能研究院 AI 编译器研究员肖航的演讲聚焦于大模型 Triton 关键算子的优化及其在 MUSA 平台上的深度适配。他介绍了旨在打通多种 AI 芯片的统一开源软件栈 FlagOS，其 FlagGEMs 算子库已涵盖超 497 个算子，并依托 FlagTree 编译器与 Triton-TLE 语言扩展，实现了跨芯片的高性能算子生成。通过融化、量化等方式加速 Fused MoE 和 FP8 GEMM 等算子性能 4 倍以上。在 DeepSeek-V4 的 Day0 适配中，通过摩尔线程专用的张量加速引擎与 FlagOSTune 调优方案，TTFT 时延降低 56.7%，吞吐量提升 65.7%。这种跨芯片的统一抽象与优化机制，正为摩尔线程等国产 GPU 构建起更加丰富、高效的算力应用生态。

▼ 破解硬件依赖，TileLang 以极简抽象重塑算子开发范式

TileLang Maintainer 唐正举深入探讨了作为 Tile 级领域特定编程语言（DSL），TileLang 在化解算子硬件依赖与性能调优上的核心优势。通过对计算与数据搬运基本单元（Tile）的显式控制，开发者能以极简代码实现极致性能——例如用约 50 行代码写出比肩 FlashAttention 专家库的 kernel，在 Attention?Sinks 等算子上更获得 20 倍以上加速。TileLang 提供 Beginner、Developer、Expert 三种编程模式，兼顾上手简易与深度调优；DeepSeek-V4 已在训练中原生采用其编写核心 kernel，达到硬件峰值性能。作为开源近一年即斩获超 6000 星的热门社区，TileLang 正与 MUSA 生态深度联调，共同构建适配摩尔线程全功能 GPU 的高性能算子库。未来，Tile?AI 社区还将围绕分布式算子编程、自动调度等新项目发力，持续赋能 AI 算力演进。

TileLang-MUSA 开源地址：

https://github.com/tile-ai/tilelang-musa

TileKernels 算子库开源地址：

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

▼ 践行极致解耦，Mooncake 训推一体系统在国产 GPU 的高效实践

Mooncake Contributor 马腾分享了 Mooncake 与 SGLang 深度结合的技术演进。其核心传输引擎（Transfer Engine）充分利用零拷贝 RDMA 与多协议支持，实现高吞吐与超低延迟；KV Cache Store 将 GPU 显存、DRAM、SSD 等异构存储统一池化，显著降低长上下文推理成本。在弹性 EP 架构中，Mooncake 支持故障节点动态摘除与 Expert 映射调整，大幅提升集群容错能力；在 RL 权重更新场景，通过 P2P 传输将同步时间从 53 秒压缩至 7.2 秒。目前，摩尔线程已作为 Mooncake 项目的核心 Maintainer 之一，深度参与多节点通信协议等关键特性共建。这一系列工程创新，正将 Mooncake 打造为现代 AI 生产与部署软件栈的关键一环。

圆桌讨论：SGLang+MUSA 生态共建与工程化破局

在圆桌对话环节，摩尔线程软件副总裁杨上山担任主持人，与 Xiaoyu Zhang（BBuf）、ROCKSTAR、肖航、唐正举及马腾五位技术专家同台，围绕 "SGLang + MUSA 生态共建与工程化破局 " 展开深度探讨。

面对开源技术创新提速与国产多硬件生态复杂度加剧的双重挑战，嘉宾们从框架、算子、通信到系统架构逐一破题：BBuf 呼吁框架层建立更干净的硬件抽象，避免侵入式修改；R0CKSTAR 分享了 MUSA 在兼容 CUDA 生态过程中 " 接口兼容、底层创新 " 的关键路径；肖航结合 Triton 及 TLE 扩展，探讨了可编程性与极致性能之间的再平衡策略；唐正举强调 TileLang 的 Tile 抽象可作为连接模型、算子和硬件的统一纽带，助力国产芯片全链路形成合力；马腾则从系统视角指出，最佳实践的沉淀与端到端场景验证是生态繁荣的关键。嘉宾们一致认为，未来 12 个月应优先建立跨层级的统一抽象边界、标准化适配接口与共享的基准测试体系，以开放协作替代重复适配，共同推动国产 AI 软硬件生态的协同突破。

结语

此次 "SGLang × MUSA Meetup" 的成功举办，标志着 MUSA 后端合入 SGLang 主线后，国产 GPU 与全球顶级推理框架的协同从 " 代码共建 " 迈向 " 生态共聚 "。

通过与 SGLang、TileLang、Triton、Mooncake 等开源社区的紧密协作，摩尔线程不仅推动了 MUSA 平台与主流 AI 框架的深度适配，更以实际行动赋能开发者，持续助力国产算力与全球开源生态的深度融合，加速 AI 应用的创新与落地。从一行行代码的提交合入，到如今线下社区的深度共聚，摩尔线程正携手顶尖开源力量，持续夯实国产 GPU 软件栈底座，与广大开发者并肩前行。

宙世代

一起剪

相关标签