月之暗面公开强化学习训练加速方法：训练速度暴涨97%，长尾延迟狂降93%

u1s1，现在模型能力是 Plus 了，但 Rollout 阶段的速度却越来越慢……

于是月之暗面出手了：爆改 RL 训练速度，让 LLM" 越跑越快 "！

最近月之暗面联合清华大学提出了全新的加速引擎Seer，能够在不改变核心训练算法的前提下，大幅度提升 LLM 的强化学习训练速度。

依托组内上下文设计，可实现同步 RL 的 Rollout 效率提升74%～97%，长尾延迟减少75%～93%。

好好好，几乎是模型换代式的效率提升。

下面来康康详细内容。

跑得更快、更省资源

强化学习目前已成为推动 LLM 发展的核心技术，但现有系统面临着严重的性能瓶颈。

具体来说，就是在端到端迭代过程中，生成阶段（rollout phase）会耗费大量的时间资源，然而该阶段受固有工作负载不均衡的影响，存在明显的长尾延迟问题，且资源利用率较低。

因此研究团队针对性推出了高效同步 RL 框架Seer。

其核心架构包括三大模块：

1、推理引擎池（Inference Engine Pool）

基于 DRAM/SSD 构建，包括多个推理实例与跨节点的全局 KVCache 池，不仅可以支持负载均衡，又能通过 KVCache 池复用中间数据，避免重复计算。

2、请求缓冲区（Request Buffer）

作为所有 rollout 请求的统一入口，负责维护请求的全量元数据（包括组 ID、提示词长度、原始最大生成长度、已生成长度等），并管理请求状态（未调度 / 处理中 / 已完成片段），实现资源的精细化调度。

3、上下文管理器（Context Manager）

负责维护所有请求的上下文视图，并基于上下文信号生成调度决策。

另外，Seer 还引入了三项关键技术，包括用于动态负载均衡的分段生成、上下文感知调度以及自适应分组推测解码，协同降低长尾延迟和提高资源利用效率。

技术一：分段生成（Divided Rollout）

针对内存波动与负载失衡，Seer 提出 " 精细化分段 + 全局 KVCache 支撑 " 的解决方案。

首先是将 GRPO 中隶属同一提示词的响应拆解为多个独立请求，再将每个请求按照生成长度进一步拆分为多个片段。

然后重新回到请求缓冲区，更新已生成长度，等待后续调度直到生成原始最大长度。

同时为避免重新调度时的提示词编码重计算，Seer 复用全局 KVCache 池，将每个片段的中间数据都存储在共享池中。

这样就能在片段迁移到新实例时，直接从共享池中读取 KVCache，而无需重新编码提示词，大幅降低迁移开销。

技术二：上下文感知调度（Context-Aware Scheduling）

为了解决调度失衡、长请求延迟导致的长尾问题，Seer 使用 " 先探路 + 后调度 " 的策略。

先为每个提示词组指定第一个响应为投机请求（speculative request），优先获取该组的长度特征，再基于特征调度剩余请求，避免长请求被保留到最后。

技术三：自适应分组推测解码（Adaptive Grouped Speculative Decoding）

由于传统推测解码依赖静态小模型生成草稿，无法适配 RL 中目标模型的迭代更新，Seer 利用组内响应模式相似的特性，通过 DGDS（分布式分组草稿服务器）聚合组内所有响应的 token 序列，构建动态模式参考库。

然后基于参考库生成草稿，就能削减额外模型开销，并随着组内响应的增加进一步提升草稿质量。

最终依靠三者的协同作用，既能保障同步 RL 的算法保真度，又可从内存、调度、推理三个维度全面优化 rollout 效率。

实验验证

为了验证系统性能，研究团队选取Moonlight、Qwen2-VL-72B、Kimi-K2三个模型，均采用 GRPO 算法训练，并将 veRL（同步 RL 系统，支持训练与 rollout 协同部署）作为基线系统进行对比。

在端到端性能验证上，实验结果发现 Seer 在不同工作负载中均实现性能突破，其中吞吐量可提升74%~97%，显著高于 veRL，且稳定性更强。

而 veRL 的长尾延迟则相当严重，例如在 Moonlight 任务中，veRL 最后 10% 请求需耗时 3984 秒（占总时长约 50%），而 Seer 仅需 364 秒，长尾延迟可实现降低 85%。

此外，Qwen2-VL-72B 任务中可降低 93%，Kimi-K2 任务降低 75%。

研究团队还对 Seer 的核心创新点（上下文感知调度、分组推测解码）进行了专项实验。

先是在 Qwen2-VL-72B 任务的第 5 次迭代中，设置三组对比：

No-Context：仅分段生成，无长度预测。

Context-Aware：Seer 的调度策略。

Oracle：提前知道所有请求的真实长度，执行理想 LFS 调度。

结果表明，在吞吐量上 Context-Aware 可达到 Oracle 的 95%，远高于 No-Context；在长尾延迟上，Context-Aware 也仅为 No-Context 的 13%，接近 Oracle。

说明基于组内长度上下文的调度，虽无法达到理想 Oracle 水平，但已能大幅缓解长尾问题，且无需提前知道真实长度，实用性较强。

然后同样是在 Qwen2-VL-72B 任务中，设置四组对比推测解码的有效性：

No-SD：无推测解码。

No-Context：有推测解码，但不聚合组内模式。

No-Adapt：有组模式，但固定推测参数。

Seer：完整分组推测解码。

结果显示，Seer 在吞吐量上远高于 No-Context 与 No-Adapt，Seer 的接受长度也随 rollout 推进而动态提升，证明了只有组内模式上下文和自适应参数相互结合才能最大化推测解码的效率。

One More Thing

另外，有消息称，月之暗面即将完成新一轮融资，融资金额将高达数亿美元。

本轮融资一旦完成，该公司估值将提升至40 亿美元。

目前月之暗面正在积极与 IDG Capital 等在内的投资机构进行融资洽谈，其中潜在投资方还包括现有股东腾讯。

消息还称，预期计划将在今年年底前完成该轮融资，并在明年下半年启动IPO 进程。

参考链接：

[ 1 ] https://x.com/rohanpaul_ai/status/1992315143665881432?s=20

[ 2 ] https://arxiv.org/abs/2511.14617

[ 3 ] https://cn.wsj.com/articles/chinas-moonshot-ai-raising-fresh-funds-that-could-value-it-at-about-4-billion-0216a228

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

快来量子位 MEET2026 智能未来大会，与我们畅聊 AI 吧！

‍张亚勤、孙茂松等 AI 行业重磅嘉宾，以及百度、京东、高通、亚马逊等头部 AI 企业已确认出席，RockAI、太初元碁、自变量、小宿科技等业内新秀也将参与分享，还有更多嘉宾即将揭晓了解详情

‍ 12 月 10 日

北京金茂万丽酒店

，期待与你共论 AI 行业破局之道

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签