没有大厂高管站台,一屋子却挤满了开源圈的熟面孔。
随便往台下扫一眼,就能对上好几个GitHub上的明星 ID:
有目前大模型推理框架顶流SGLang的核心开发者BBuf(Xiaoyu Zhang);
有主导下一代算子编程生态TileLang的维护者唐正举;
有操刀 KVCache 解耦与传输神器Mooncake的核心贡献者马腾;
有来自智源人工智能研究院、围绕Triton/FlagOS死磕 AI 编译器的肖航;
还有像R0CKSTAR这样在 GitHub 上异常活跃的硬核开发者。

这场看似是开源圈极客们的面基会,却着实是有点反差在身上的——
活动的攒局者,是国产 GPU玩家,摩尔线程。
这事确实有点意思。
因为过去提到国产 GPU,外界最容易想到的关键词,往往还是硬件参数、显存容量、算力指标、生态替代、模型能不能跑起来。
但这场SGLang × MUSA Meetup真正抛出的问题已经变了:
怎么让国产 GPU 真正进入大模型推理的主流开源工程链路?
说得更直接一点,就是让 SGLang、Triton/FlagOS、TileLang、Mooncake、KVCache、P/D 分离、分布式通信、CI/CD、upstream PR 这些东西,能够围着国产 GPU 一起转起来。
有一说一,在整体听下来之后,有一个非常直观的感受。
那就是国产 GPU 的竞争,已经不只是芯片参数之争,转而开始迈向生态坐标之争。
为什么这么说?我们继续往下看。
国产 GPU 开始 " 扩圈 " 了
先看这场 Meetup 本身。
它的主题很明确:SGLang × MUSA。
SGLang 是当下大模型推理 serving 领域关注度很高的开源框架,面向 LLM 和多模态模型,核心目标是低延迟、高吞吐,覆盖从单卡到大规模分布式集群的部署场景。
这类框架之所以重要,是因为今天的大模型落地,早就不是 " 模型训练好了,放上去跑 " 这么简单。
真正进入生产环境后,系统要处理的是一整套复杂问题。
例如 prefill 和 decode 怎么拆,KVCache 怎么复用,长上下文怎么省钱,多轮对话怎么降 TTFT,大规模集群怎么调度,新模型发布后怎么 day-0 support,出了性能 gap 怎么定位到具体 kernel。
第一个上台的是 SGLang 核心开发者BBuf。
△SGLang 核心开发者 BBuf
这个在 GitHub 上拥有 27k 星的开源推理框架,现在已经是全球开发者部署大模型的首选。
他带来的 SGLang 2026 Q2 Roadmap,每一条都踩在行业的痛点上:
针对 DeepSeek V4 的全链路优化,包括 W4A16 量化、MegaMoE 加速和稀疏注意力支持;
jit_kernel 全面替代传统的 sgl-kernel,用 TVM-FFI 把编译速度提升了数倍,再也不用等几个小时的 wheel 包;
Vibe Coding 全面落地,用 AI agent 自动分析 profiler、定位性能瓶颈、提交 PR,5 月前已经完成了超过 60 个优化任务;
多模态能力全面升级,支持 LTX2、Wan、混元视频等最新模型,性能比其他框架最高快 5 倍。
最让人印象深刻的是他展示的一组数据。
SGLang 通过 P/D 分离架构,在 12 个 H100 节点上跑出了 52.3k 输入 token/s/node、22.3k 输出 token/s/node 的成绩,比 DeepSeek 官方 API 还便宜 5 倍,这个结果已经被全球 10 多个团队复现。
紧接着上台的摩尔线程 Contributor R0CKSTAR,带来了全场最硬核的工程实践分享。
△摩尔线程工程师 R0CKSTAR
他用一句话总结了过去半年的工作:
SGLang on MUSA 已经完成了从环境构建到 CI 测试的全链路打通。
这意味着什么?
现在你只要克隆 SGLang 的官方仓库,安装 sgl-kernel 和 sglang,就能在摩尔线程 MTT S5000 显卡上直接运行几乎所有主流大模型。
DeepSeek、通义千问 3.5、GLM-4.5、FLUX、Wan 这些热门模型,都已经完成了深度优化。
他特别提到了 MUSA 的三层 CUDA 兼容栈。
过去适配一个推理框架要改几千行代码,现在只要在开头加一行 import torchada,99% 的 CUDA 代码就能直接运行。这个看似简单的改动,解决了国产 GPU 生态的一大痛点。
据了解,截至 5 月 12 日,摩尔线程在 SGLang 主线累计提交 47 个 PR,其中 41 个已合入,完成了从环境构建到分布式推理的全链路打通。
智源的肖航则带来了 DeepSeek V4 在 MUSA 上的 Day0 适配成果。
△智源 AI 编译器研究员
通过 FlagOS 的 Triton 算子优化和摩尔线程的 SQMMA 张量加速引擎,他们把 DeepSeek V4 的首 token 延迟降低了 56.7%,吞吐量提升了 23%。
对此,肖航表示:
我们没有做什么黑魔法,就是把两个最关键的算子优化到了极致。
FP8 矩阵乘算子平均加速 8.85 倍,稀疏注意力算子平均加速 6.01 倍,这两个占了推理时间 80% 的算子一优化,端到端性能自然就上去了。
TileLang 维护者唐正举的分享,则让所有人看到了下一代算子编程的未来。
△TileLang 维护者唐正举
这个 2025 年 2 月才开源的项目,短短一年多就收获了 6k 星和 133 位贡献者,连 DeepSeek V4 的核心 kernel 都是用 TileLang 写的,正如唐正举所说:
用 TileLang 写 FlashAttention,只要 50 行 Python 代码,性能和专家手写的 CUDA 一模一样。
并且从他在现场展示的对比图来看,同样的 GEMM 算子,TileLang 用 15 行代码达到了 CUTLASS 的性能,代码量减少了 90%。
最后上台的阿里云马腾,带来了 Mooncake 项目的最新进展。
△Mooncake Contributor 马腾
这个专注于 KVCache 解耦的项目,现在已经是 SGLang、vLLM 等主流推理框架的标配。
他展示的一组较为吸睛的数据:
通过 RDMA P2P 权重更新,Kimi K2 1T 模型的权重同步时间从 53 秒降到了 7.2 秒,加速了 7.37 倍;EPD 三级解耦架构让多模态模型的首 token 延迟降低了 6-8 倍;HiCache + Mooncake 后端让多轮对话的缓存命中率超过 90%。
至此,这场 Meetup 的拼图基本完整——
SGLang 是推理框架主链路,MUSA 是国产 GPU 底层平台,FlagOS/Triton 解决关键算子优化,TileLang 降低高性能 kernel 编程门槛,Mooncake 补上 KVCache 和生产部署。
这,便是一条较为完整的工程链路。
为什么摩尔线程能把他们摇来?
这个问题的答案不能只归结为办了一场活动。
开源圈很现实,大家愿意来,核心原因不是谁会讲故事,是这件事真的和他们正在做的工程问题有关。
首先看 MUSA 本身的设计初心。
摩尔线程 CTO张钰勃在开场中解释,MUSA 是 Meta-computing Unified System Architecture。
△摩尔线程 CTO 张钰勃
Meta-computing 指向通用计算,摩尔线程希望 GPU 尽量拥抱通用计算,而不是给未来可计算的领域设限;Unified 则意味着摩尔线程产品希望遵循同一套统一标准,避免不同产品线使用不同指令集和架构,导致软件生态无法积累。
更关键的一句话是,MUSA 不希望开发者为了使用 MUSA 而重新学习一套东西。
这句话看似朴素,其实直指国产 GPU 生态的痛点。
开发者最怕什么?
不是新硬件本身,是为了新硬件,学习一整套新 API,重写一堆代码,改完还进不了上游,社区一更新又要重新补丁。
如果一个国产 GPU 生态要求开发者从头学一遍,那它面对的便是巨大的迁移阻力。
所以 MUSA 的路线,是尽量贴近开发者已经熟悉的 GPU 编程方式、API 接口和使用习惯。底层实现可以不同,但上层体验尽可能一致。
三层 CUDA 兼容栈的意义就在这里。
torch_musa 负责把 PyTorch 和 MUSA 的基础能力接起来;torchada 负责让 CUDA-first 生态继续工作;mthreads-ml-py 负责把设备管理、拓扑、显存、MTLink、P2P 等信息暴露给上层框架。
用一句更通俗的话说,摩尔线程在尽量把原来的路修到自己门口。
这直接影响到开源社区协作的可行性。
因为上游项目最看重的是低侵入、可维护、可复用。如果一个适配方案需要大面积改动主线代码,后续每次 rebase 都痛苦,上游很难接受。
反过来,如果适配可以通过更透明的方式完成,PR 就更容易被 review,也更容易持续跟随社区迭代。
这就是从 " 我自己维护一个分支 " 到 " 我进入主线 " 的区别。
再看生态结合。
SGLang × MUSA,是推理主链路打通。
摩尔线程从去年开始把 SGLang 作为重点接入和贡献的开源项目,经过大半年努力,MUSA 后端近期已经合入 SGLang 主线。后续不只是跟随 feature,也希望在框架层面贡献更多能力。
这件事的意义在于,国产 GPU 不再只是某个框架的外部适配对象,已经开始成为主线生态的一部分。

FlagOS × MUSA,是关键算子和新模型适配。
大模型推理的性能竞争,越来越多发生在 kernel、编译器、调度、低精度和通信层。DeepSeek V4 day-0 适配这样的工作,本质上考验的是从模型发布到工程落地之间的反应速度。能不能第一时间跑通,能不能快速调优,能不能在真实 shape 上找到更好的配置,决定了生态跟不跟得上。

Mooncake × MUSA,是推理解耦和生产部署。
KVCache 的价值在 Agent、多轮对话、长上下文时代被进一步放大。Mooncake 与 MUSA 的结合,不只是让某个缓存后端能跑在国产 GPU 上,更是在探索跨实例 KVCache 共享、弹性扩缩容、缓存复用、原地升级这类生产级问题。

TileLang × MUSA,则是下一代算子生态的提前布局。
如果未来更多模型和硬件都需要定制 kernel,算子编程不能永远停留在少数专家手里。TileLang 这类 DSL 的价值,是把高性能 kernel 编程变成更多开发者能上手的工程工具。

这四条线合在一起,才是摩尔线程能组局的底气。
它把自己放进了大模型推理的真实工程网络里,包括框架、算子、缓存、通信、部署、CI/CD、upstream 等等。
而这,也是国产 GPU 生态真正要补的课。
国产 GPU 的生态位,正在走向协作
如果把这场 Meetup 从更宏大的算力发展角度来看,它的价值或许远超技术分享本身。
过去几年,国产 GPU 的生态困境是比较明显的。
许多厂商习惯了闭门造车,自己从头写一套深度学习框架,自己攒一套算子库,结果因为不符合主流开发者的习惯,鲜有人问津。
又或者,有的厂商只是拉一个私有 Fork 做适配,从来不向开源上游提交代码,导致主流框架一更新,自己的适配版本就成了无人维护的孤品。
而现在,摩尔线程给出了一个完全不同的答案:
全面融入全球开源生态,去和世界上最聪明的一批人一起做事。
在这场活动中,我们频繁听到几个词:Day-0 Support、Upstream PR、CI/CD。
这说明国产 GPU 的生态位正在发生质变。摩尔线程不再只满足于做一个被动的适配者,它要的是主动出击,成为核心代码的 " 贡献者 ",甚至是未来架构的 " 共建者 "。
他们不仅仅是丢一个单点的 Patch 过去,而是把一整套包含环境构建、PR 提交、CI 自动化测试、Release 发布、文档维护在内的工程闭环,深深地嵌入到了 SGLang 等顶级项目的血脉中。
这种可持续的 Upstream 模式,才是真正掌握生态话语权的方式。
这场开源局还证明了一件事,国产 GPU 已经走上了大模型推理开源生态的公共牌桌。
在这个牌桌上,已经坐着风头正劲的 SGLang,坐着死磕底层编译的 Triton/FlagOS,坐着重塑算子生态的 TileLang,坐着主导解耦架构的 Mooncake。
而现在,国产 GPU,也可以拉开椅子,从容地坐下来,和这群明星玩家们一起打好大模型时代最关键的这把牌。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见








登录后才可以发布评论哦
打开小程序可以发布评论哦