量子位 前天
强化学习没作用?人大DelTA精准识别关键token,推理正确率大幅上升
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

做大模型 RL 微调,你是不是也踩过这些坑?

强化学习训练总不稳定、正负样本梯度难区分,过往依赖经验手动分配 Token 权重的方式,始终没法拿到最优训练效果。

来自人大高瓴的研究团队针对这些问题,提出了一种新的 token credit assignment 算法—— DelTA。DelTA 不依赖经验或直觉,而是通过求解优化问题,为强化学习目标中的每一个 token 计算最优权重。

实验显示,DelTA 适用于几乎所有主流强化方法,能够适配当前主流强化框架,并在数学推理、代码生成、知识问答等 10 余个任务上,为不同尺寸、不同类别的 base 模型带来显著提升。

看似复杂的强化学习原来是个线性判别器

为了理解强化学习的底层机制,研究团队对进行了分析,其中 x 是待生成 token,而 c 则代表已生成的上下文:

上面的公式是对进行一阶泰勒近似得到的。通过这个公式,研究团队发现:强化学习对 token 概率的更新由两个因素决定:

生成模型的对数梯度(后简称 token 梯度);

模型参数的变化。

进一步看模型的参数变化,以 DAPO 为例,它的优化目标是这样的:

那么就可以表示成:

把这个公式整理一下,定义以及,得到

那么,token 概率的更新可以表示成

上面的公式揭示了强化学习的工作原理:

在优化中,强化学习会隐式地将 token 分成两堆,一堆对应正 advantage,另一堆对应负 advantage,两堆点的质心分别由和给出。

token 的更新机制,实际上是拿 token 梯度和这两个质心做对比,如果和正质心更接近,那么就提高生成概率;如果和负质心更接近,那么就降低生成概率。大模型强化学习的优化目标虽看似复杂,但实际上做了个线性分类的工作。

虽然主要以 DAPO 为讨论对象,但实际上所有结论都可以推广到主流的 policy optimization 方法上,只要优化目标和 DAPO 有类似的形式。

DelTA 的核心思路:通过优化线性判别器来让 token 更有区分度

在标准 DAPO 中,每个 token 被等同看待,但实际上正确的回答和错误的回答在文本上往往有很多重叠,这些重叠的 token 将不可避免降低正负质心的区分度,那么一个自然的解决方法就是给 token 加权,让有区分度的 token 对质心的影响更大,从而让最后的正负质心离得更远,这就是团队提出的DelTADiscriminativesignal-guided  Token Credit  Assignment)算法。

具体实现上,DelTA 并不是通过 " 拍脑袋 " 来设计 token 权重,而是通过求解优化问题,迭代式地计算最优权重和质心:

第一步:计算权重

在第 k 步,给定正负质心,token 权重由下面优化问题的解决定:

直观上,如果一个 token 对应正 advantage(比如来自正确答案),那么优化问题希望让它离正质心更近,离负质心更远。类似也可以定义负 advantage 的优化问题。最后得到最优权重如下:

第二步:更新质心

有了权重,就可以对 token 进行加权得到新的质心:

直观上,权重越大,该 token 的区分度就越大,对质心计算的影响也就越大。这样得到的正负质心相距更远,从而更具区分度。

第三步:迭代收敛后将所得权重代入强化学习目标,运行强化学习算法。

其中,,代表迭代后所得最终权重。

实验表现:数学代码推理全面 SOTA,并在知识推理上泛化良好

7 个数学推理任务上相较最强算法分别提升 3.26(8B)和 2.62(14B)。

实验选取 Qwen3-8B-base 和 Qwen3-14B-base 作为基础模型,在 AIME24,AIME25,AIME26,HMMT25(Feb.),HMMT25(Nov.),HMMT26(Feb.),以及 Brumo25 上和 DAPO,DAPO   with forking tokens,SAPO,以及比较新的 FIPO 进行了比较。在每个数据集上,DelTA 都能显著超过同模型尺寸下最好算法。

更有趣的是,相比已有算法提升 reward 的同时会导致 token 熵变大(更鼓励探索),DelTA 同样带来了比较可观的 reward 提升,但是 token 熵却在下降,说明 DelTA 在分清了正负 token 后,能够更有效地利用区分度大的 token 进行训练,从而有可能让训练更加稳定。

效果不止于 Qwen。

除了 Qwen3,研究团队还在 Allen Institute 最近发布的 Olmo3-7B-base 上进行了实验。结果显示,DelTA 依然十分有效,说明该算法并不依赖基模选择。

代码生成同样有效。

研究团队利用代码数据训练 DelTA,并在包括 HumanEval+,MBPP+,以及 LiveCodeBench 上进行了实验。结果显示,DelTA 在代码生成任务上同样有效。

泛化能力优越。

为了检验 DelTA 训练后模型的泛化能力,研究团队将数学数据上训练的 Qwen3-8B-base 直接应用到 GPQA-Diamond 以及 MMLU-Pro 上。结果显示,DelTA 除了能够显著提升 DAPO 在数学推理上的效果,还能为其带来泛化能力上的提升。

指标提升在于学到了正确的 token 权重。

指标提升了,但 token 权重学对了吗?为了回答这个问题,研究团队做了个有趣的实验。

他们按 DelTA 给出的权重对 rollout 中的 token 排序,只用前 50% 高权重 token 来计算 DAPO 损失,并与随机 50% 和后 50% 两种选择作对照。结果发现,只训练前 50% 高权重 token 不仅超过随机 50%,甚至还能超过全量 DAPO;而只训练后 50% 低权重 token 时,训练很快崩溃。这个对比说明,DelTA 的权重并不是简单地做稀疏化,而是在把真正有学习价值的 token 梯度从共享或误导性的梯度中筛选出来

面向未来

算法上跨越 DAPO,模型上跨越 14B。事实上,团队已经从数学上证明了 DelTA 并不依赖具体的强化方法,也不依赖 verifiable reward,因此在更大的模型上,更多的在线强化算法上验证 DelTA 的有效性,是一个有趣方向。

实现上寻求更优近似。当前为了效率,研究团队在 token 梯度上做了非常大幅的近似,而这种近似势必限制了 DelTA 的性能。下一步,团队也在寻求效率上可接受,理论上更合理,效果上更优秀的梯度计算方法。

作者介绍

本作第一作者为人民大学高瓴人工智能学院二年级硕士张凯翼。

论文链接:https://arxiv.org/pdf/2605.21467

代码链接:https://github.com/RUCBM/DelTA

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

效果 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论