量子位 昨天
多轮Agent蒸馏终于不翻车!港中文x通义新方法成功率暴涨18点,训练还快32%
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

把强大模型的能力 " 蒸馏 " 给小模型,听起来很美——

但放到多轮对话 Agent 场景里,效果往往一塌糊涂。

为什么?

香港中文大学联合阿里通义事业群给出了答案,并提出了一种名为 TCOD(Temporal Curriculum On-Policy Distillation)的训练方法。

上图(左)表示在多轮 Agent 的 OPD 训练中,随着交互轮次的增加,教师模型对学生生成回复中各 token 的概率分配持续降低,表明每轮的 KL 散度不断攀升,最终导致监督信号失效。(右)表示原始 OPD 使用完整轨迹进行训练,因此包含了所有累积的误差;而 TCOD-F2B/B2F 则通过课程学习,从短轨迹逐步扩展至长轨迹,有效规避了误差轮次的干扰。)

团队发现失效的根本原因在于轨迹级 KL 不稳定性,每一轮误差不断累积,把学生模型推到老师模型从未见过的状态区域,老师的监督信号因此彻底失效。

而 TCOD 用课程学习的思路,让学生模型从短轨迹开始、循序渐进地学习完整轨迹,一举解决了多轮 Agent 蒸馏的稳定性难题。

TCOD 只需对现有 OPD 代码做极少改动

On-Policy Distillation(OPD)已经在 SFT 和 RL 之后,成为了第三种有效的 post-training 训练方式。

然而 OPD 虽然在数学推理等单轮任务上很好用,但放到 ALFWorld、WebShop 这类多轮交互任务里,直接翻车:

小模型:KL 散度飙升 + 成功率崩塌到接近 0

大一点的模型:虽然最终收敛,但初始 KL 极高,训练极不稳定

( ALFWorld 上不同师生模型组合的轨迹级 KL 分析。 ( a ) ( b ) 显示,在整个训练过程中 KL 散度持续攀升,同时任务完成率出现崩塌。 ( c ) 展示了 OPD 训练中初始 KL 与收敛后 KL 之间的巨大差距。 ( d ) 揭示了背后的根本原因:KL 散度随交互轮次的增加而增大,表明误差沿轨迹方向不断累积放大。 )

那 TCOD 是怎么解决的呢?

核心思路很简单:别一开始就让学生独立走完整条轨迹,用课程学习,从短到长慢慢来。

具体有两种变体:

F2B(前向到后向):先让学生负责前几步,再逐步接管后续步骤

B2F(后向到前向):先让老师引导到接近终点的状态,学生只负责最后几步,再逐渐向前延伸

两种方式只需对现有 OPD 代码做极少改动。

KL 崩溃被彻底压制,小模型直接 " 满血复活 "

团队在三个难度递增的多轮 Agent 基准上验证了 TCOD 的效果,包括 ALFWorld(具身导航)、WebShop(电商购物)以及 ScienceWorld(科学推理)。

在这些基准上,TCOD 成功率最高提升了 18 个百分点,同时把平均行动步数也一并压了下来。

最值得关注的,是小模型的 " 死而复生 "。

Qwen3-1.7B为例,用 Vanilla OPD 训练后,模型在三个基准上的平均成功率仅有0.17%

这几乎是完全崩溃、毫无可用性。

但换上 TCOD 之后,同一个 1.7B 小模型的平均成功率直接拉升至18% 以上,提升幅度超过 18 个百分点。

这意味着,TCOD 把一个 " 废了 " 的模型重新训活了。

对于更大的模型,TCOD 则是锦上添花。

Qwen2.5-3B学生模型为例,在 ALFWorld 的 Valid Unseen 测试集上,Vanilla OPD 成功率为60.45%,而 TCOD-F2B 的成功率为79.19%,提升了 18.74 个点。

不仅如此,TCOD 还把完成任务所需的平均行动步数压缩了 2.97 步,推理效率和任务性能同步提升。

TCOD 与 OPD 在 ALFWorld 上的训练动态对比

上图 ( a ) ( b ) 分别展示了以 Qwen2.5-7B 为学生模型,Qwen2.5-7B-RL 之后的作为 teacher 模型时的成功率与 KL 散度变化曲线。TCOD 在整个训练过程中始终保持更高的成功率,同时 KL 散度也更加平稳可控。

TCOD 与 OPD 在 ALFWorld 上的训练动态对比

上图 ( a ) ( b ) 分别展示了以 Qwen2.5-7B 为学生模型,Qwen2.5-7B-RL 之后的作为 teacher 模型时的训练过程中的平均行动步数与优势函数的变化曲线。

研究人员还专门构建了一个Hard 测试集——

121 个教师模型 pass@10 采样全部失败的任务,教师自身成功率仅 6.61%。

结果,Qwen2.5-7B 学生模型在 TCOD-B2F 的训练下,Hard 集成功率达到 20.66%,比教师高出整整 14 个点。

让模型学会 " 从短到长、循序渐进 " 地走轨迹,不仅能学会老师会的,还能泛化到老师根本不会的任务。

TCOD 与 OPD 在 ALFWorld 上的域外泛化及困难集性能对比

另外,研究人员还测试了训练效率。

TCOD-F2B 和 B2F 比 Vanilla OPD 减少了约32%的总训练时间。

原因也很直接:课程学习早期只走短轨迹,rollout 更短、数据收集更快,省下来的计算量相当可观。

团队还进一步验证了超参鲁棒性,发现课程扩展速率 η 在 {2,4,6} 之间变动,成功率波动不超过 2%,几乎不需要调参就能直接用。

TCOD 展现出的这种 " 循序渐进 " 模式,让 AI 更接近人类学习的方式。

也就是先在简单场景里站稳脚跟,再逐步挑战复杂任务,而不是一开始就被扔进深水区。

未来,这类时序课程机制很可能成为训练长程 Agent 的标配组件。

论文:https://arxiv.org/pdf/2604.24005

GitHub:https://github.com/kokolerk/TCOD

ModelScope:https://modelscope.cn/collections/wjqkoko/TCOD

Hugging Face:https://huggingface.co/collections/kolerk/tcod

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

评论
大家都在看