最近,京东和中科院信工所展开了Self-Taught RLVR的系列研究,并连发三篇后训练新作。
这一系列的核心命题只有一个 :
如何让大模型自我指导,实现迭代演化 ?
研究者对 Self-Taught 探索了三个互补维度:
1、RLSD:探究informed self——由特权信息增强的自身来教自己;
2、NPO:聚焦temporal self——由近未来的自身教自己;
3、CoPD:探究parallel-self——由走另一条路的自身来教自己。



这三篇文章分别面向 RLVR 和 OPD 的热点问题:
RLSD:如何更好地吸收好特权信息?
NPO:如何在 RLVR 中引入更合适的辅助学习信号?
CoPD:如何更好地将多个专家的能力吸收到同一个模型中?
虽然这些问题看似不同,但实则都有着相同的本质,就是如何引入更好的学习信号并被模型有效地吸收。
Self-Taught RLVR 系列研究则给出了同一个答案:让模型自己为自己提供贴合当前能力的,更易吸收的学习信号。

以下是三篇系列文章的详细内容。
RLSD:让 " 看见答案的自己 " 来教自己
第一篇RLSD ( RLVR with Self-Distillation ) 关心的问题是 :
当我们给同一个模型注入特权信息 ( 比如参考答案 ) 后 , 它能不能成为老师来指导自己 ?

这个 setting 之前已经被OPSD ( On-Policy Self-Distillation ) 探索过,比如:Self-distilled reasoner:On-policy self-distillation for large language models 和 Reinforcement learning via self-distillation,但是结果很尴尬 :
模型在极少数据上快速收敛(大概 20step 以内),之后很快就开始信息泄漏,在推理时想当然地引用一个其实它并没有看到的 " 参考解 " 来解决问题,回答风格变为如下图所示的情况,并紧接着性能逐渐坍塌。

RLSD 这篇论文做了两件事 :
理论上,作者证明了 OPSD 的目标函数是 ill-posed 的,这个训练目标中存在一个不可消除的项 mutual information gap(I ( Yt; R | X, Y 0)。
不同于常规的条件一致的 OPD,OPSD 中的老师条件在特权信息上、而学生看不到这个特权信息,在这种情况下这个 gap 就永远抹不掉,KL 散度也就永远降不下去。每一步训练都在悄悄把 x → r 的虚假相关性写进参数里,最终影响梯度方向。
方法上,RLSD 给出了一个简单优雅的修复 :
方向交给 RLVR:
环境奖励决定每个 token 是该被强化还是被惩罚,这是可靠但稀疏的信号,保证更新的大方向不要出错;
幅度交给自蒸馏:
用老师 / 学生的 evidence ratio 来调节每个 token 的更新力度,这是密集的信号,保证在细粒度上对于不同的 token 能给出不同的 credit 分配。

通过把 " 用对方向 " 和 " 分清主次 " 这两件本来纠缠在一起的事情解耦,RLSD 就成了 RLVR 和 OPSD 的自然的合体,既继承了 OPSD 的 token-level 密集信号,又重新拿回了 RLVR 来自环境的可靠信号锚定。

至于效果,在 Qwen3-VL-8B-Instruct 以及文本、图片、视频的 8 个 benchmark 上,同时打败了一系列的 baseline,不仅收敛速度更快,而且最终性能上限更高,200 步训练就超过 GRPO 训 400 步的水平。

如果用漫画总结就是:

NPO:让 " 短暂未来后的自己 " 教自己
第二篇NPO ( Near-Future Policy Optimization ) 关心的是一个看起来朴素、根本的问题 :
为 RLVR 引入什么样的辅助学习信号能带来最大收益 ?
研究者把这件事抽象成了一个简洁的指标:有效学习信号 S=Q/V。
也就是说,一条好的辅助轨迹要足够强(高 Q,有新东西可学)的同时还得足够近(低 V,模型容易吸收)。

之前的方法都顾不全这一点:从外部老师导入轨迹,Q 高但 V 太大;从经验回放(Experience Replay)抓自己过去的轨迹,V 低但 Q 又被自身历史水平卡死。
NPO 的核心思想可以一句话概括:用未来的自己来引导当下的自己。简单来说,就是一个比当前更强 ( 沿优化方向走了若干步 ) , 但又离当前足够近 ( 同一条优化进程上的延伸 ) 的天然 teacher。

作者从理论上和实证上都证明了这种设计能最大化有效学习信号 S=Q/V。
在具体实现上,本文采用 mixed-policy 的方式:把 near-future checkpoint 产生的、被验证为正确的 trajectory 混入当前 rollout group,既加速早期 bootstrap,也帮助后期突破 plateau。
进一步,作者还提出了AutoNPO,自动从在线训练信号里检测干预时机、自动挑选 S 最大的 guide checkpoint。


最终在 Qwen3-VL-8B-Instruct 上,GRPO 平均分从 57.88 提升到 NPO 的 62.84,AutoNPO 进一步推到 63.15,在收敛速度和最终上限上同时打败 LUFFY 等 mixed-policy 基线。
值得一提的是,本文采用了 mixed-policy 的实现方式,但 near-future self 这个思想本身远不止这一种用法——后续工作完全可以用 OPD 等其他方式来引入 near-future 信号,效果应该同样显著。
另外,漫画总结如下:

CoPD:让 " 走另一条路的自己 " 教自己
第三篇CoPD ( Co-Evolving Policy Distillation ) 关心的是一个非常热的问题 :
如何更好地把多个 expert 的能力吸收到同一个模型上 ?
研究者在统一视角下识别出现有两条主流路径都各有问题。要把多个专家能力整合到一个模型里,直觉上无非两种思路:要么一起练,要么分开练再合并。
为了看清它们各自问题在哪里,研究者将两者放进同一个效用框架。
设 X ( D ₁ , D ₂ ) 为两个数据集包含的总优化信号(即理想情况下能实现的能力增益),则任何范式 P 的实际效用可以写成:
其中 a ₚ∈ [ 0,1 ] 衡量信号的转化效率,b ₚ≤ 0 捕捉额外损失。
在这个框架下,两种路径的损失来源一目了然:
mixed-data RLVR:最直接的做法——把所有能力的数据混在一起,用一个模型直接做 RLVR。
信号全部参与优化(a ₚ =1),但多个能力共享同一组参数,梯度方向互相冲突,要额外承担能力发散代价 b ₚ = − Φ。表现为典型的 seesaw 效应:一个能力涨了,另一个就跌。
调数据配比改变不了这个本质,只要混着训,就得付这笔 " 打架税 "。

传统静态 OPD pipeline:既然混着训会打架,那就分开练——先在各自的数据上独立训出专家模型,再通过 on-policy distillation 蒸馏到统一的 student 模型上。
分开训练消除了发散代价(b ₚ =0),但代价转移到了信号转化率上:a ₚ远小于 1。
专家确实学到了很强的能力,但蒸馏到 student 的时候只传过去了一部分。
一个丢在 b ₚ上,一个丢在 a ₚ上——两种路径的能力损失是对称的。那能不能同时做到 b=0 且 a 足够高?这取决于一个前置问题:a ₚ到底受什么控制?
作者的假说是:a ₚ取决于 teacher 和 student 的行为有多像——越像,监督信号越容易被吸收。
就像学游泳,教练的动作和你的水平差不多时,你一看就能模仿;但如果教练直接表演奥运级蝶泳,你只能干看着学不会。
为此,作者用token overlap(student 生成的轨迹上,两者 top-k token 交集的比例)来量化这种一致性,并通过两组实验验证:
实验 1(图 a-b):固定 teacher,构造不同 overlap 的 student 做 OPD。结果:overlap 越高,OPD 增益越大(r=0.89),验证了 " 越像越好吸收 "。
实验 2(图 c-d):观察独立 RLVR 训练过程中 overlap 的变化。结果:overlap 单调下降,KL 涨了一个数量级——静态 OPD 蒸馏的时刻,恰好是吸收效率最低的时刻。专家越训越强,但也越训越 " 教不动 "。
也就是说,a ₚ本质上是 teacher-student 行为重合度 O 的函数 η ( O ) :O 越高,吸收越高效。但也不能完全一样—


登录后才可以发布评论哦
打开小程序可以发布评论哦