让大模型学会「自己教自己」！京东&中科院信工所连发三篇论文定义Self-Taught RLVR

最近，京东和中科院信工所展开了Self-Taught RLVR的系列研究，并连发三篇后训练新作。

这一系列的核心命题只有一个 :

如何让大模型自我指导，实现迭代演化 ?

研究者对 Self-Taught 探索了三个互补维度：

1、RLSD：探究informed self——由特权信息增强的自身来教自己；

2、NPO：聚焦temporal self——由近未来的自身教自己；

3、CoPD：探究parallel-self——由走另一条路的自身来教自己。

这三篇文章分别面向 RLVR 和 OPD 的热点问题：

RLSD：如何更好地吸收好特权信息？

NPO：如何在 RLVR 中引入更合适的辅助学习信号？

CoPD：如何更好地将多个专家的能力吸收到同一个模型中？

虽然这些问题看似不同，但实则都有着相同的本质，就是如何引入更好的学习信号并被模型有效地吸收。

Self-Taught RLVR 系列研究则给出了同一个答案：让模型自己为自己提供贴合当前能力的，更易吸收的学习信号。

以下是三篇系列文章的详细内容。

RLSD：让 " 看见答案的自己 " 来教自己

第一篇RLSD ( RLVR with Self-Distillation ) 关心的问题是 :

当我们给同一个模型注入特权信息 ( 比如参考答案 ) 后 , 它能不能成为老师来指导自己 ?

这个 setting 之前已经被OPSD ( On-Policy Self-Distillation ) 探索过，比如：Self-distilled reasoner：On-policy self-distillation for large language models 和 Reinforcement learning via self-distillation，但是结果很尴尬 :

模型在极少数据上快速收敛（大概 20step 以内），之后很快就开始信息泄漏，在推理时想当然地引用一个其实它并没有看到的 " 参考解 " 来解决问题，回答风格变为如下图所示的情况，并紧接着性能逐渐坍塌。

RLSD 这篇论文做了两件事 :

理论上，作者证明了 OPSD 的目标函数是 ill-posed 的，这个训练目标中存在一个不可消除的项 mutual information gap（I ( Yt; R | X, Y 0）。

不同于常规的条件一致的 OPD，OPSD 中的老师条件在特权信息上、而学生看不到这个特权信息，在这种情况下这个 gap 就永远抹不掉，KL 散度也就永远降不下去。每一步训练都在悄悄把 x → r 的虚假相关性写进参数里，最终影响梯度方向。

方法上，RLSD 给出了一个简单优雅的修复 :

方向交给 RLVR：

环境奖励决定每个 token 是该被强化还是被惩罚，这是可靠但稀疏的信号，保证更新的大方向不要出错；

幅度交给自蒸馏：

用老师 / 学生的 evidence ratio 来调节每个 token 的更新力度，这是密集的信号，保证在细粒度上对于不同的 token 能给出不同的 credit 分配。

通过把 " 用对方向 " 和 " 分清主次 " 这两件本来纠缠在一起的事情解耦，RLSD 就成了 RLVR 和 OPSD 的自然的合体，既继承了 OPSD 的 token-level 密集信号，又重新拿回了 RLVR 来自环境的可靠信号锚定。

至于效果，在 Qwen3-VL-8B-Instruct 以及文本、图片、视频的 8 个 benchmark 上，同时打败了一系列的 baseline，不仅收敛速度更快，而且最终性能上限更高，200 步训练就超过 GRPO 训 400 步的水平。

如果用漫画总结就是：

NPO：让 " 短暂未来后的自己 " 教自己

第二篇NPO ( Near-Future Policy Optimization ) 关心的是一个看起来朴素、根本的问题 :

为 RLVR 引入什么样的辅助学习信号能带来最大收益 ?

研究者把这件事抽象成了一个简洁的指标：有效学习信号 S=Q/V。

也就是说，一条好的辅助轨迹要足够强（高 Q，有新东西可学）的同时还得足够近（低 V，模型容易吸收）。

之前的方法都顾不全这一点：从外部老师导入轨迹，Q 高但 V 太大；从经验回放（Experience Replay）抓自己过去的轨迹，V 低但 Q 又被自身历史水平卡死。

NPO 的核心思想可以一句话概括：用未来的自己来引导当下的自己。简单来说，就是一个比当前更强 ( 沿优化方向走了若干步 ) , 但又离当前足够近 ( 同一条优化进程上的延伸 ) 的天然 teacher。

作者从理论上和实证上都证明了这种设计能最大化有效学习信号 S=Q/V。

在具体实现上，本文采用 mixed-policy 的方式：把 near-future checkpoint 产生的、被验证为正确的 trajectory 混入当前 rollout group，既加速早期 bootstrap，也帮助后期突破 plateau。

进一步，作者还提出了AutoNPO，自动从在线训练信号里检测干预时机、自动挑选 S 最大的 guide checkpoint。

最终在 Qwen3-VL-8B-Instruct 上，GRPO 平均分从 57.88 提升到 NPO 的 62.84，AutoNPO 进一步推到 63.15，在收敛速度和最终上限上同时打败 LUFFY 等 mixed-policy 基线。

值得一提的是，本文采用了 mixed-policy 的实现方式，但 near-future self 这个思想本身远不止这一种用法——后续工作完全可以用 OPD 等其他方式来引入 near-future 信号，效果应该同样显著。

另外，漫画总结如下：

CoPD：让 " 走另一条路的自己 " 教自己

第三篇CoPD ( Co-Evolving Policy Distillation ) 关心的是一个非常热的问题 :

如何更好地把多个 expert 的能力吸收到同一个模型上 ?

研究者在统一视角下识别出现有两条主流路径都各有问题。要把多个专家能力整合到一个模型里，直觉上无非两种思路：要么一起练，要么分开练再合并。

为了看清它们各自问题在哪里，研究者将两者放进同一个效用框架。

设 X ( D ₁ , D ₂ ) 为两个数据集包含的总优化信号（即理想情况下能实现的能力增益），则任何范式 P 的实际效用可以写成：

其中 a ₚ∈ [ 0,1 ] 衡量信号的转化效率，b ₚ≤ 0 捕捉额外损失。

在这个框架下，两种路径的损失来源一目了然：

mixed-data RLVR：最直接的做法——把所有能力的数据混在一起，用一个模型直接做 RLVR。

信号全部参与优化（a ₚ =1），但多个能力共享同一组参数，梯度方向互相冲突，要额外承担能力发散代价 b ₚ = − Φ。表现为典型的 seesaw 效应：一个能力涨了，另一个就跌。

调数据配比改变不了这个本质，只要混着训，就得付这笔 " 打架税 "。

传统静态 OPD pipeline：既然混着训会打架，那就分开练——先在各自的数据上独立训出专家模型，再通过 on-policy distillation 蒸馏到统一的 student 模型上。

分开训练消除了发散代价（b ₚ =0），但代价转移到了信号转化率上：a ₚ远小于 1。

专家确实学到了很强的能力，但蒸馏到 student 的时候只传过去了一部分。

一个丢在 b ₚ上，一个丢在 a ₚ上——两种路径的能力损失是对称的。那能不能同时做到 b=0 且 a 足够高？这取决于一个前置问题：a ₚ到底受什么控制？

作者的假说是：a ₚ取决于 teacher 和 student 的行为有多像——越像，监督信号越容易被吸收。

就像学游泳，教练的动作和你的水平差不多时，你一看就能模仿；但如果教练直接表演奥运级蝶泳，你只能干看着学不会。

为此，作者用token overlap（student 生成的轨迹上，两者 top-k token 交集的比例）来量化这种一致性，并通过两组实验验证：

实验 1（图 a-b）：固定 teacher，构造不同 overlap 的 student 做 OPD。结果：overlap 越高，OPD 增益越大（r=0.89），验证了 " 越像越好吸收 "。

实验 2（图 c-d）：观察独立 RLVR 训练过程中 overlap 的变化。结果：overlap 单调下降，KL 涨了一个数量级——静态 OPD 蒸馏的时刻，恰好是吸收效率最低的时刻。专家越训越强，但也越训越 " 教不动 "。

也就是说，a ₚ本质上是 teacher-student 行为重合度 O 的函数 η ( O ) ：O 越高，吸收越高效。但也不能完全一样—

宙世代

一起剪