SGLang原生支持昇腾，新模型一键拉起无需改代码

当 Agent 在应用侧不断加速，推理系统能否承受随之而来的真实负载，正在成为行业关注的焦点。

这是 12 月 20 日在杭州收官的SGLang AI 金融 π 对上，被反复提及的一个背景。

在这场聚焦大模型推理效率的 " π 对 " 上——

Agent 的 Vibe 被暂时搁到一边，真正摆上桌面的，是推理系统在真实负载中的工程问题：高并发请求、长上下文窗口、多轮推理、内存管理，以及在具体金融 agent 场景下的一致性生成问题。

同时，在活动讨论中，昇腾作为算力平台也被多次提及。

当前，昇腾已作为 SGLang 原生支持的后端之一进入主仓库，随着 SGLang 推理引擎的更新，DeepSeek、Qwen、GLM 等模型可以在不调整模型参数、不引入额外插件的情况下直接运行，HiCache、Mooncake 等系统能力也在对应版本中引入。

可以说，这次 SGLang AI 金融 π 对呈现的，并非零散技术点，而是一条清晰的推理工程演进路径——从缓存与内存体系，到权重更新、强化学习效率，再到算力与模型生态的协同。

接下来，我们具体来看。

面向 Agent 的推理系统工程解法

这次 SGLang 活动由SGLang与AtomGit社区联合发起，于 12 月 20 日在杭州举办，活动围绕大模型推理架构、Agent、强化学习及其在金融场景的落地展开讨论。

在嘉宾方面，活动由来自推理系统、模型与算力一线的工程团队共同参与，包括华为高级项目群总监薛曜，SGLang 开发者黄章衡、尚旭春，华为 " 小巧灵 " 突击队工程师荆升航，昇腾高级研发工程师镇亮，以及 GLM 技术布道师张昱轩。

整体来看，Agent 相较于以往的问答式 LLM，在深度研究、代码生成、工具调用等应用以及强化学习训练中，对高并发请求、长上下文窗口、多轮推理和内存管理的效率提出了更高要求。

而在特定的部署场景，如金融 Agent 中，则对低延迟、响应稳定性、一致性及成本控制的要求则更为严苛。

本次 Meetup 正是围绕这些 Agent 原生的系统变化，给出了工程实践层面的集中回应。

首先，针对高并发、长上下文场景下KV cache 重复计算、显存需求大的问题。

SGlang 通过最新引入的HiCache 体系，将 KV cache 扩展到 CPU 和远端存储，由 Cache Controller 自动管理 KV 卸载填装，并结合流水线化异步预取，显著降低了显存占用，提升了上下文推理的稳定性与吞吐。

此外，针对 Qwen3-Next、Kimi Linear 这类具备不同计算逻辑和内存管理方式的混合模型。

SGLang 通过Mamba Radix Tree实现前缀统一管理，并借助Elastic Memory Pool弹性调度 KV Cache 与 Mamba State，在长上下文、多并发场景下提供高效推理和显存优化能力。

其次，为应对强化学习中策略权重频繁更新导致 GPU 空转、冷启动耗时过长的瓶颈。

Mooncake基于 Transfer Engine，采用异步预读、pipeline 并行设计，显著压缩权重加载和模型启动时间，实现热更新与弹性扩容。

实测效果显示：Kimi K2 万亿参数模型的权重更新准备时间被压缩至 20 秒以内，63B 模型的冷启动时间更是从 85 秒降至 9 秒。

此外，由于强化学习 rollout 不再是一次性推理，而是异步、多阶段、长度不可预测的过程。

换句话说，rollout 中的长尾请求可能拖慢 90% 的训练时间，甚至可能出现跑了一整夜仍未完成任何 step 的情况。

针对这一问题，SGLang 通过 Server 化 + 全异步执行、oversample 与 partial rollout 机制控制长尾请求，大幅缓解 Agentic RL 中的长尾问题，提高了训练效率。

最后，针对 DeepSeek、GLM-4.5 等 MoE 模型的 fuse MoE、内存调度和负载均衡问题，SGLang 持续重构执行路径与内存管理机制。

同时，Slime 强化学习系统针对大规模 GRPO 与多阶段 RL 训练定制，实现训练系统与推理引擎的深度协同。

一个值得注意的细节是，这些推理系统级能力，并非只停留在某一类算力平台上。这些实践中的 HiCache、Mooncake、GLM 都均已能够在昇腾平台上直接运行，并进入实际推理流程。

而这些不约而同的支持，恰恰从侧面印证了当前昇腾硬件在推理系统生态的角色转变——

它已作为主流推理工作流中的后端之一，被自然纳入系统设计与工程实现之中。

昇腾 × SGLang：大模型推理的高效实践

在上述共性问题之下，活动中也展示了 SGLang 在昇腾平台上的最新进展，覆盖模型适配、性能优化及系统加速能力模块化沉淀。

主要亮点如下：

模型优化：针对 DeepSeek、Qwen 系列等开源模型进行适配与性能提升，支持稠密、稀疏、多模态等架构，并支持 Flux、Qwen-Image 等多模态生成模型。

系统特性：HiCache L1/L2/L3 直通缓存机制已落地，MTP 完全适配昇腾平台，兼容 GPU 与 NPU 后端。

量化能力：推进昇腾侧量化与开源框架协同，支持压缩张量等多种量化方案。

推理模式：完善图模式支持，实现 DeepSeek V3.2、Qwen-Next、Longcat 等新模型的 day0 支持。

强化学习：支持 SGLang VeRL 等强化学习相关模型的推理与部署。

在具体的模型上，昇腾此次实现了对DeepSeek V3.2的Day 0支持，在 PD 分离、64K 输入、3K 输出场景下，推理吞吐达15TPS / 卡，TTFT 约 4 秒，PD 传输（HCCS）< 8ms，TPOT ≈ 20 毫秒。

为实现上述性能，团队在系统层面进行了多项优化：负载均衡方面，通过重新分配计算任务，使各 CP rank 计算量均衡。

融合算子方面，减少计算过程中的内存访问次数和 Kernel 启动开销。将多个连续的小算子合并为一个复合算子，使中间结果保留在高速缓存中，从而显著提升计算效率。

多流并行方面，通过 Cube 与 Vector 计算单元并行执行算子，提升计算资源利用率。

同时，在 Cube 计算路径中引入权重预取机制，实现数据搬运与计算阶段的重叠，减少访存等待带来的性能损耗。

这些优化让昇腾平台在大规模、高复杂度推理场景中，实现了高吞吐、低延迟、资源高效利用的表现。

针对Qwen的优化则包括通用能力增强（图模式、W8A8 量化、EAGLE3），为不同规模和形态等模型提供基础性能支撑。

同时，引入昇腾亲和性专项优化：利用多流并行，并在大 EP（Expert Parallelism）场景中通过 Dispatch/Combine 流程将 GMM 计算融合处理，减少算子切换和中间调度开销，提升整体执行效率。

除 DeepSeek、Qwen 外，SGLang 在昇腾硬件上也已覆盖Kimi、LongChat等模型，新模型可在不改代码的前提下直接运行。

同时就像开头所说的，这些模型的所有代码均已合入 SGLang 主社区仓，开发者无需额外安装插件，直接拉取主仓代码即可使用。

昇腾表示这里的核心理念是尽量不动 Models 层，仅在底层完成硬件亲和与性能提升。

而这一系列进展背后，是昇腾与 SGLang 主仓的深度共建逻辑，也意味着 AI 算力与开源推理框架的融合进入新阶段：

从架构层面看，昇腾相关优化已下沉到 SGL-kernel-NPU 算子库，亲和算子能力与代码实现均在此集中维护演进。

Engine 层作为核心优化区，支持 EPLB、Graph Runner 与 MTP，覆盖 GPU 与 NPU 等多硬件后端以实现统一推理能力。

缓存与通信则依托 HiCache 完成 L1/L2 及 L3-L1 直通优化，最底层的 SGL-kernel-NPU 则承载昇腾加速算子、量化算子及传输接口，实现开源能力与昇腾性能的双向赋能。

整体来看，这些进展体现了昇腾与 SGLang 开源社区在推理系统层面的持续协同，也为后续更复杂推理与强化学习场景提供了稳定的工程基础。

全面拥抱开源

在这次活动中，我们了解到，昇腾是今年七月份才正式启动与 SGLang 的适配工作。薛曜表示，这一工作的目标很明确——全面拥抱开源、加速昇腾生态建设。

在过去 5 个多月里，昇腾不仅补齐了多类主流模型的推理支持，还覆盖了强化学习训练、多模态理解与生成等关键场景，并在 PD 传输等系统层面持续优化，将SGLang on Ascend 的整体性能推到了 " 可打 " 的水平。

此外，据现场披露，昇腾已基于 SGLang 已在真实业务场景中，对 DeepSeek V3.2 完成了灰度测试。这意味着相关能力已不再停留在实验或 Demo 阶段，而是进入了真实生产环境的验证周期。

从 roadmap 来看，昇腾接下来的演进方向也并非泛化扩展，而是明确围绕 " 推理系统 " 展开的系统性工程投入：

一方面，通过 Zero Buffer、昇腾亲和加速库等机制，持续压榨单机与多机推理吞吐，服务高并发、低时延的真实业务负载；

另一方面，在基础软件层构建昇腾版 Triton 生态，与 SGLang、vllm 等开源引擎保持接口与演进节奏对齐，使模型上线、算子开发与性能调优形成可复用路径。

这些动作共同指向了一个清晰变化：昇腾不再只是 " 能否支持某个模型 " 的硬件选项，而是开始以推理系统为核心，被纳入开源工程的主线讨论与默认方案评估之中。

当模型、推理引擎与算力平台在工程层形成稳定协作，AI 算力真正需要回答的问题，也将不再是 " 能不能跑 "，而是 " 系统能不能长期跑、规模化、稳定地跑 "。

因为说到底，高性能、易用性、开箱即用才是真道理。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签