驱动之家 7小时前
从代码合入到社区共聚:SGLang × MUSA Meetup圆满落幕,国产GPU开源生态进入“原生支持”时代
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

5 月 10 日,由摩尔线程与 SGLang 社区联合主办的 "MUSA 开源技术沙龙|SGLang × MUSA Meetup" 在北京成功举行。

本次 Meetup 不仅集结了 SGLang 核心开发成员,并邀请到 TileLang、Triton、Mooncake 等开源社区的顶尖技术专家,吸引了近百位前沿开发者到场参与。各方围绕大模型推理引擎、算子编译、工程优化与生态共建等核心议题,展开了一场高密度、深层次的技术交流。

作为 MUSA 后端正式合入 SGLang 主线后的首场线下技术活动,此次 Meetup 集中展现了摩尔线程在推动国产 GPU 深度融入全球主流开源框架、加速 AI 软件栈生态共建方面取得的里程碑成果。基于这一官方支持体系,开发者在使用 SGLang 运行大语言模型及多模态推理任务时,已可直接调用摩尔线程全功能 GPU,无需依赖第三方适配层,国产算力与国际主流推理框架的协同由此迈入 " 原生支持 " 的新阶段。

立足通用计算,以 MUSA 开放架构拥抱开源生态

摩尔线程 CTO 张钰勃在开场致辞中,深度阐释了 MUSA(Meta-computing Unified System Architecture)统一系统架构的核心设计理念。他强调,摩尔线程始终坚持 " 通用计算 " 的初衷,以真正通用及高度统一的底层计算平台,支撑从物理世界仿真、数字孪生到具身智能的未来技术演进,不为创新设限;同时,通过全产品线 " 统一 " 的指令集与架构标准,确保软件生态能够持续沉淀与积累。

针对开发者最为关心的生态迁移体验,张钰勃表示:" 摩尔线程秉持开放的态度,MUSA 在接口设计上最大程度复用了开发者熟悉的 GPU 编程习惯。我们不希望独立创造一套封闭的生态,而是以零学习成本,全面融入现有的繁荣生态。" 基于这一开放理念,他指出,此次 MUSA 获得 SGLang 官方支持,正是摩尔线程拥抱开源社区的关键一步。未来,摩尔线程将与广大开发者并肩前行,持续在框架底层创新上贡献更多核心力量。

技术分享:从推理框架到算子内核,共探国产 GPU 落地路径

技术分享环节,SGLang、Triton、TileLang 及 Mooncake 社区的核心专家围绕推理框架、算子编译与训推系统等议题,带来了五场深度技术分享。

▼   解析演进路线,SGLang 以创新架构挑战大模型推理极限

SGLang 核心开发成员 Xiaoyu Zhang(BBuf)重点解析了框架的关键演进:支撑 DeepSeek-V4 等模型的 Prefill-Decode 分离架构与分层缓存机制,以及 Zero?overhead Speculative Decoding 带来的推测解码效率跃升。在算子层,原有的 sgl?kernel 包因体积膨胀(超 1.5GB)已逐步迁移至全新的 Jit?kernel 体系,基于 TVM?FFI 实现按需编译,大幅提升开发与发版效率。同时,SGLang 积极引入 Vibe Coding 实践,利用 AI Agent 自动完成了超 60 项性能分析与调优任务。发布 2026 年 Q2 Roadmap 时,他明确表示摩尔线程 MUSA 已正式纳入 SGLang 硬件适配核心阵列,未来双方将深化原生算子支持,共同推动顶级推理框架与国产算力底座的 " 原生 " 级融合。

▼   打通原生生态,MUSA 释放主流模型 " 开箱即用 " 算力

摩尔线程 Contributor ROCKSTAR 分享了 SGLang 在 MUSA 平台上的优化与工程落地实践。他重点介绍了实现快速兼容的关键—— torchada 适配层,通过一次 import torchada 即可让开发者现有 CUDA 代码无缝运行在摩尔线程 GPU 上,大幅降低适配与维护成本。在算子层面,摩尔线程开源的   MATE(MUSA AI Tensor Engine)算子库提供了高性能 Attention 与 GEMM 算子,已对接 FlashAttention、FlashMLA、DeepGEMM 等主流接口。目前,基于 MUSA 的 SGLang 已支持 DeepSeek、Qwen、GLM 等主流大模型及 Wan、LTX 等视频生成模型,在 MTT S5000 等硬件上实现真正的 " 开箱即用 " 与无缝加速,显著降低了开发者的算力迁移门槛。截至 5 月 12 日,摩尔线程在 SGLang 主线累计提交 47 个 PR,其中 41 个已合入,完成了从环境构建到分布式推理的全链路打通,为开源生态持续贡献了扎实的工程能力。

SGLang × MUSA Roadmap 地址:

https://github.com/sgl-project/sglang/issues/16565

SGLang 安装文档

https://docs.sglang.io/docs/hardware-platforms/mthreads_gpu

▼   攻克关键算子优化,Triton 助力构建跨芯片统一软件栈

北京智源人工智能研究院 AI 编译器研究员肖航的演讲聚焦于大模型 Triton 关键算子的优化及其在 MUSA 平台上的深度适配。他介绍了旨在打通多种 AI 芯片的统一开源软件栈 FlagOS,其 FlagGEMs 算子库已涵盖超 497 个算子,并依托 FlagTree 编译器与 Triton-TLE 语言扩展,实现了跨芯片的高性能算子生成。通过融化、量化等方式加速 Fused MoE 和 FP8 GEMM 等算子性能 4 倍以上。在 DeepSeek-V4 的 Day0 适配中,通过摩尔线程专用的张量加速引擎与 FlagOSTune 调优方案,TTFT 时延降低 56.7%,吞吐量提升 65.7%。这种跨芯片的统一抽象与优化机制,正为摩尔线程等国产 GPU 构建起更加丰富、高效的算力应用生态。

▼   破解硬件依赖,TileLang 以极简抽象重塑算子开发范式

TileLang Maintainer 唐正举深入探讨了作为 Tile 级领域特定编程语言(DSL),TileLang 在化解算子硬件依赖与性能调优上的核心优势。通过对计算与数据搬运基本单元(Tile)的显式控制,开发者能以极简代码实现极致性能——例如用约 50 行代码写出比肩 FlashAttention 专家库的 kernel,在 Attention?Sinks 等算子上更获得 20 倍以上加速。TileLang 提供 Beginner、Developer、Expert 三种编程模式,兼顾上手简易与深度调优;DeepSeek-V4 已在训练中原生采用其编写核心 kernel,达到硬件峰值性能。作为开源近一年即斩获超 6000 星的热门社区,TileLang 正与 MUSA 生态深度联调,共同构建适配摩尔线程全功能 GPU 的高性能算子库。未来,Tile?AI 社区还将围绕分布式算子编程、自动调度等新项目发力,持续赋能 AI 算力演进。

TileLang-MUSA 开源地址:

https://github.com/tile-ai/tilelang-musa

TileKernels 算子库开源地址:

https://github.com/tile-ai/tilelang-musa/tree/main/tilekernels

▼   践行极致解耦,Mooncake 训推一体系统在国产 GPU 的高效实践

Mooncake Contributor 马腾分享了 Mooncake 与 SGLang 深度结合的技术演进。其核心传输引擎(Transfer Engine)充分利用零拷贝 RDMA 与多协议支持,实现高吞吐与超低延迟;KV Cache Store 将 GPU 显存、DRAM、SSD 等异构存储统一池化,显著降低长上下文推理成本。在弹性 EP 架构中,Mooncake 支持故障节点动态摘除与 Expert 映射调整,大幅提升集群容错能力;在 RL 权重更新场景,通过 P2P 传输将同步时间从 53 秒压缩至 7.2 秒。目前,摩尔线程已作为 Mooncake 项目的核心 Maintainer 之一,深度参与多节点通信协议等关键特性共建。这一系列工程创新,正将 Mooncake 打造为现代 AI 生产与部署软件栈的关键一环。

圆桌讨论:SGLang+MUSA 生态共建与工程化破局

在圆桌对话环节,摩尔线程软件副总裁杨上山担任主持人,与 Xiaoyu Zhang(BBuf)、ROCKSTAR、肖航、唐正举及马腾五位技术专家同台,围绕 "SGLang + MUSA 生态共建与工程化破局 " 展开深度探讨。

面对开源技术创新提速与国产多硬件生态复杂度加剧的双重挑战,嘉宾们从框架、算子、通信到系统架构逐一破题:BBuf 呼吁框架层建立更干净的硬件抽象,避免侵入式修改;R0CKSTAR 分享了 MUSA 在兼容 CUDA 生态过程中 " 接口兼容、底层创新 " 的关键路径;肖航结合 Triton 及 TLE 扩展,探讨了可编程性与极致性能之间的再平衡策略;唐正举强调 TileLang 的 Tile 抽象可作为连接模型、算子和硬件的统一纽带,助力国产芯片全链路形成合力;马腾则从系统视角指出,最佳实践的沉淀与端到端场景验证是生态繁荣的关键。嘉宾们一致认为,未来 12 个月应优先建立跨层级的统一抽象边界、标准化适配接口与共享的基准测试体系,以开放协作替代重复适配,共同推动国产 AI 软硬件生态的协同突破。

结语

此次 "SGLang × MUSA Meetup" 的成功举办,标志着 MUSA 后端合入 SGLang 主线后,国产 GPU 与全球顶级推理框架的协同从 " 代码共建 " 迈向 " 生态共聚 "。

通过与 SGLang、TileLang、Triton、Mooncake 等开源社区的紧密协作,摩尔线程不仅推动了 MUSA 平台与主流 AI 框架的深度适配,更以实际行动赋能开发者,持续助力国产算力与全球开源生态的深度融合,加速 AI 应用的创新与落地。从一行行代码的提交合入,到如今线下社区的深度共聚,摩尔线程正携手顶尖开源力量,持续夯实国产 GPU 软件栈底座,与广大开发者并肩前行。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

开源 gpu 摩尔 数字孪生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论