2025 年,AI 大模型的竞争焦点正在发生根本性转移。
预训练的边际收益在下降,数据的红利在消退,整个行业都在寻找下一个增长引擎。答案越来越清晰:强化学习(RL)。
DeepSeek V3.2 的技术报告里有个细节很值得玩味—— RL 训练的算力投入已经超过预训练的 10%,而且性能曲线还在往上走。OpenAI 的 o 系列、Claude 的推理能力、Gemini 的多模态表现,背后都站着大规模 RL。
强化学习正在从 " 锦上添花 " 变成大模型进化的主战场。
但这里有一个卡脖子的问题:在万亿参数模型上跑 RL,成本高得离谱。
传统方法需要上千张顶级 GPU,训练周期动辄数周,绝大多数团队根本玩不起。这不是技术问题,这是资源垄断——只有少数几家公司能负担得起这种规模的 RL 训练。
现在,这个局面被打破了。
来自 Macaron AI 背后的研究团队 Mind Lab 给出了他们的答案:全球首个在 1T 参数模型上实现的 LoRA 高效强化学习训练,GPU 消耗直降 90%。
这不是工程优化的小胜利,而是训练范式的根本性转变。NVIDIA Megatron-Bridge 和 Seed verl 已官方合并这套技术,代码全部开源。

更硬核的是,这支 10 人研究团队的成员来自 OpenAI、DeepMind、Seed,发表 200+ 篇论文,累计被引用 30,000+ 次。
先说说背景。
最近几个月,万亿参数级的推理模型开始扎堆出现—— Kimi-K2、Ring-1T 相继登场,在多个推理基准上已经追平甚至超越闭源模型。
但预训练只是起点。看看 DeepSeek V3.2 就知道了—— RL 训练的算力投入已经超过预训练的 10%,性能曲线还没见顶。强化学习正在从 " 锦上添花 " 变成大模型进化的主战场,成为未来一年的兵家必争之地。
要让万亿参数模型真正适配 Agent 任务,RL 不再是可选项:
RL 能优化多步推理,而不是只做下一个 token 的预测
RL 能整合来自工具、环境、用户的反馈信号
RL 能塑造长程行为,这对 Agent 系统越来越重要
问题在于成本。
在万亿参数模型上跑全参数 RL,对绝大多数团队来说根本不现实——就算你能拿到开源的模型权重,训练开销也能把你劝退。
Mind Lab 给出的解法是:用 LoRA 做参数高效适配,配合专门为万亿参数 MoE 模型设计的混合并行引擎,把 RL 的计算量砍到只剩十分之一,同时性能不打折。
Mind Lab 直接拿 Kimi K2 开刀做了验证。
先看模型配置:
基座模型:Kimi K2,万亿参数 MoE 推理模型
激活参数 / 总参数:32.6B/1.04T
激活专家 / 共享专家 / 总专家:8/1/384
注意力头数:64
再看训练配置:
8 个节点 × 8 张 NVIDIA H800(共 64 张 GPU)
RL 算法:GRPO
适配方式:在 dense 层和 expert 层都加 LoRA,rank=128

关键结论有三条:
第一,成本大幅下降。
在 Kimi K2 上跑 LoRA RL,GPU 消耗只有传统全参数 RL 的 10% 左右。
第二,训练稳定收敛。
学习曲线显示,reward 和任务成功率随着训练步数平稳提升,没有出现灾难性崩溃。
第三,通用能力保住了。
在 hold-out 基准上的评测表明,LoRA RL 在提升特定任务表现的同时,保留了基座模型的通用能力。
你可能会问:LoRA 不是早就有了吗?为什么在万亿参数 MoE 上跑就这么难?
问题出在 MoE 的架构特性上。现代万亿参数推理模型基本都是 MoE Transformer,几百个专家、大量的 all-to-all 通信、dense 和 expert 参数混杂在一起。
在这个设定下,简单的数据并行 +LoRA 方案会被三个问题卡死:
问题一:路由不均衡。
几百个专家的 token 路由极度不均匀,拖慢吞吐、放大 RL 更新的方差。
问题二:通信压力爆炸。
LoRA 的适配器权重需要频繁跨设备收集,all-gather 开销巨大,动不动就 OOM。
问题三:并行布局太复杂。
rollout 和 training 要在同一套硬件上紧耦合运行,简单的并行策略根本带不动。
Mind Lab 的解法是设计了一套混合协同并行引擎,把 tensor、pipeline、expert、sequence 四种并行方式统一调度:
Tensor 并行:处理同节点内的大矩阵乘法
Pipeline 并行:把层分摊到不同节点
Expert 并行:分片 MoE 专家,跨设备路由 token
Sequence 并行:处理长上下文场景
核心设计思想是:把并行当成可调度的资源,而不是固定的布局。
LoRA 的配置也有讲究:
在 dense 层和 expert 层都挂适配器,让 RL 信号能同时影响全局行为和专家行为
用中等的 LoRA rank(比如 128),平衡表达能力和稳定性
适配器完全分片,尽可能融合进现有 kernel,避免额外开销
最终效果:LoRA 的参数量和通信量大约是全参数 RL 的 10%,但 RL 信号的传导路径并没有被阉割。
还有一个坑:RL 训练里,rollout(生成轨迹)和 training(更新参数)通常用不同的后端。
推理端可能跑在一个独立的、为 serving 优化的引擎上;训练端可能跑在一个重型的、需要频繁同步的分片后端上。
这就导致了分布不匹配——生成轨迹的策略和更新参数的策略不是同一个东西。
在万亿参数规模下,这个问题会被急剧放大:
logits 的微小差异会导致采样轨迹的巨大偏差
朴素的重要性采样比率可能爆炸,让训练彻底失稳
Mind Lab 的解法是引入了截断重要性采样比率(truncated importance ratio),显式修正这种不匹配,同时不引入不可接受的方差。具体的数学公式涉及 vllm 和 megatron 两个后端的策略比值,通过截断操作把梯度权重控制在合理范围内。

整套方案已经集成到开源训练栈里:verl 负责 RL 训练循环、rollout 编排和 reward 聚合;Megatron-Bridge 把 verl 接入 Megatron 风格的 MoE 后端,统一暴露四种并行方式。
代码已合并至 NVIDIA Megatron-Bridge 和 Volcengine verl。
一个自然的问题是:为什么非要在超大模型上做 LoRA RL,而不是直接用小模型跑全量 RL 呢?
Mind Lab 做了一组对照实验,在 Math 数据集上训练三个策略:

三个模型只在 Math 上训练,然后同时在 AIME 2025(域内)和 GPQA(域外)上评测。
为了公平比较,团队控制了:
总 RL FLOPs(tokens × 参数 × 更新次数)
环境交互次数
奖励模型和 RL 流程
为了剔除大模型起点更高的优势,团队用了一个 "headroom-normalized" 的指标:相对于起点分数到满分之间的提升比例。
结论相当清晰:
32B 模型 +rank=8 的 LoRA,在相同 RL 计算预算下,headroom-normalized 增益最大。
而且在域外任务 GPQA 上,32B+LoRA 的迁移效果也是最好的——更强的先验带来了更好的泛化。
简单说:" 大先验 + 小 LoRA" 比 " 小模型全参数 RL" 更划算。
背后的逻辑是:RL 本质上是先验受限的(prior-limited)。如果基座模型本身生成不出高质量轨迹,RL 就没有什么有用的信号可以放大。大模型已经编码了丰富的推理、工具使用和人类交互模式,RL 可以在这些基础上精修,而不是从头造轮子。

除了 RL 训练框架,Mind Lab 还搞了一套全新的记忆机制—— Memory Diffusion。
传统的 Agent 记忆方案有两类:
第一类是推理式记忆。每轮对话后,模型主动总结记忆片段。问题是反复总结计算开销大,而且关键细节容易在多轮迭代中丢失。
第二类是工具式记忆。把记忆存在外部数据库里,需要时检索回来插入上下文。问题是检索和重整合的过程容易丢失微妙的语境。
Mind Lab 的思路完全不同:把轨迹本身当作记忆,通过反复的 " 遮蔽 - 分配 - 重填 " 操作来动态压缩。
三步走:
Mask
:从轨迹中选一块,确定性地遮掉
Allocate
:根据重要性给这块分配 token 预算——重要的多给,不重要的少给或直接扔掉
Refill
:在预算约束下重新生成这块内容,得到压缩但语义完整的表示

这个设计的灵感来自人类的遗忘机制。
人脑每时每刻都在高速丢弃无关信息——开车上班时,你会瞬间忘掉路过的广告牌,只记住目的地和路线。Memory Diffusion 让 AI 也学会了这种 " 智慧地遗忘 ":不追求记住一切,而是只保留真正有意义的经验。
关键是,这套方法的时间复杂度是 O ( 1 ) ,不改变模型架构,严格遵守上下文预算。
在 Locomo 基准测试上,Memory Diffusion 达到了 93% 的准确率,刷新了 SOTA。
Andrej Karpathy 说过一句话:
"Human thought naively feels a bit more like autoregression but it ’ s hard to say that there aren ’ t more diffusion-like components in some latent space of thought."
Mind Lab 正在把这个直觉变成工程现实——用扩散语言模型来做记忆更新本身,让 " 智慧遗忘 " 成为模型原生的能力。
Research-Product Co-Design:产品就是最好的 RL 环境
Mind Lab 还提出了一个核心理念:研产共设(Research-Product Co-Design)。
为什么?因为真实产品能提供合成环境给不了的东西:
偏好会随时间变化的真实用户
嵌入真实约束的任务
超越 " 对错 " 的长程反馈信号
产品本质上就是天然的 RL 环境。它持续生成接地的 reward 信号——编辑、使用模式、任务完成率、留存率,甚至用户的流失,都在告诉你系统到底有没有在帮忙。
Mind Lab 在前端代码生成任务上做过一个实验:用产品级的人类反馈训练为什么非要在超大模型上做 LoRA RL,而不是直接用小模型跑全量 RL 呢?,然后用它来优化策略。
结果显示:
用真实人类反馈训练的 GenRM,显著优于只经过预训练的模型
用 GenRM 做 RL,显著优于 SFT

而且,静态环境下的 reward model 容易被 "hack" ——模型找到满足 proxy 但违背真实意图的病态策略后,没有自动纠错机制。
但在真实产品里,偏好数据是源源不断的。用户会交互、会反对、会覆盖系统的输出。这种持续的反馈流让 reward model 能不断更新,不容易过拟合到退化策略上,行为也更贴近真实的用户价值。
底层技术的突破不是停留在论文里的数字。
基于这次模型升级,Macaron AI 的 Mini-app 生成速度从 20 分钟直接干到 2 分钟,提升 10 倍。同时上线了群聊协作和 Daily Spark 等新功能。
这就是 " 研产共设 " 的真实成果——更高效的模型训练,带来更快的推理速度,最终转化为用户可感知的体验升级。
在最新的访谈中,Ilya 表示:我们正在结束一个以「算力规模化」(Scaling)为核心的时代,重新回到一个以「基础研究」(Research)为驱动的时代。
Ilya Sutskever 说了一句让整个行业都在琢磨的话:
Pre-training as we know it will end. What comes next is superintelligence: agentic, reasons, understands and is self aware.
预训练时代正在走向终结。那么,下一个时代是什么?
Mind Lab 的答案是:经验智能(Experiential Intelligence)时代。
这可能是全球第一个专门为 " 后预训练时代 " 而生的研究实验室。
他们的核心命题只有一个:
他们的核心主张是:预训练时代构建了 " 大脑 ",但下一个时代属于 " 心智 "。大脑记住了互联网上的海量知识,但在面对真实世界的复杂性时依然捉襟见肘。心智不只是存储的知识——它是能通过交互不断更新的世界模型、能从反馈中学习的内部机制、能动态感知任务的记忆系统。
简单说:大脑负责记忆,心智负责在世界中活着。
而这次万亿参数 LoRA-RL 的突破,正是他们为这个新时代打下的第一块基石——当 RL 训练的门槛被砍掉 90%,更多团队就能进入这个赛道,整个行业的进化速度都会加快。
团队阵容相当硬核:
10 人核心研究团队,成员来自 OpenAI、DeepMind、Seed
学术背景横跨清华、MIT、Cornell
创始人 Andrew 现任清华深圳研究院 Research Director
团队合作始于 10 年前,发表 200+ 篇论文,被引 30,000+ 次
Slogan 也很有意思:
Real intelligence learns from real experience.
真正的智能源于真实的体验。
他们研究的三个方向:
1. 基础设施:打通产品到 Agent 的闭环,更快更便宜的训练方案
2. 超越预训练:持续学习、记忆机制、推理与反思
3. 开放与可复现:可被复现的重要实验,寻找下一个 scaling law
Mind Lab 的差异化在于:他们不是产品公司,不会永远追着最新最强的模型跑;他们以研究智能为目标,不断提高模型学习的效率。也许当前模型不是最好的产品选择,但好算法的斜率更大,长期会成为那个更好的选择。
用他们自己的话说:
From training to becoming, from static intelligence to living intelligence.
从训练到成为,从静态智能到活的智能。
项目主页:
Mind Lab Blog: https://macaron.im/mindlab/
开源地址:
https://github.com/volcengine/verl/pull/4063
https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1310
https://github.com/NVIDIA-NeMo/Megatron-Bridge/pull/1380
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦