量子位 昨天
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

强化学习改变了大语言模型的后训练范式,可以说,已成为 AI 迈向 AGI 进程中的关键技术节点。

然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

当前,大模型在Next Token PredictionTest-time Scaling两种扩展范式下,通过大规模的数据和模型扩展,实现了能力的持续跃升。但相比之下,奖励模型缺乏系统性的预训练和扩展方法,导致其能力难以随计算量增长而持续提升,成为阻碍强化学习链路进一步扩展的短板。

如何解决?

现在,来自上海人工智能实验室的研究团队提出了一种新的思路:

他们找到了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式——策略判别学习(Policy Discriminative Learning, POLAR),使奖励模型能够像大语言模型一样,具备可扩展性和强泛化能力。

POLAR 为大模型后训练带来突破性进展,并有望打通 RL 链路扩展的最后一环。

什么是 POLAR

先来看一下 POLAR 能做到什么。

与传统的奖励模型不同,POLAR 是根据参考答案为模型的输出打分。这意味着 POLAR 可以灵活地基于不同场景的参考答案给出不同的奖励分数,轻松适配多样的定制化需求。

下面是一个开放问题的例子,对应有三个不同风格的回复:

问题:彩虹是怎么形成的?

回答一:彩虹是阳光经过水滴折射和反射后形成的。

回答二:当阳光照射到空气中的小水滴时,光线会进入水滴发生折射,再从水滴的内壁反射后再次折射出水滴。由于不同波长的光折射角度不同,最终呈现出不同的颜色,这些颜色组合起来就形成了我们所看到的彩虹。

回答三:彩虹是阳光通过空气中的水滴折射和反射后形成的。生活中我们经常在雨后或喷泉、水幕附近看到彩虹,有时候还会看到双彩虹甚至三重彩虹呢!不过很可惜,彩虹本身只是光学现象,没法真正走近摸到。

对于这种开放问题,不同的用户可能会偏向不同风格的回复。此时,传统奖励模型的 " 绝对偏好 " 无法灵活应对不同的定制化场景。而 POLAR 只需要根据不同的参考回复,即可为三种回答给出不同的偏序关系,无需重新训练奖励模型

来看 POLAR 实际打分的例子。如果给定的参考风格是简短扼要,POLAR 会给第一个回答最高的分数。

参考一:阳光穿过水滴的折射与反射形成了彩虹。

回答一:-2.095703125

回答二:-5.859375

回答三:-7.44921875

如果参考的是详细分析风格,POLAR 会给第二个回答最高分。

参考二:彩虹是阳光经过空气中的许多小水滴后,通过连续的折射与反射而产生的。当阳光进入水滴时,光线首先被折射进入水滴内部,然后在水滴内壁发生一次反射,随后再次折射射出水滴。因为阳光中不同颜色的光线波长各不相同,折射时产生的角度也略有差别,这使得光线被分解成红、橙、黄、绿、蓝、靛、紫等颜色,从而形成了我们所看到的绚丽彩虹。

回答一:-8.5625

回答二:-5.2421875

回答三:-8.125

如果参考的是俏皮发散风格,此时第三个回答的奖励分数最高。

参考三:彩虹是阳光经过水滴折射和反射后形成的。在日常生活中,只要条件合适,比如刚下完雨、喷泉边,甚至在水幕电影附近,都能邂逅这种美丽的景象。不过呢,虽然彩虹看上去很近,但它毕竟只是光的奇妙游戏,我们无论怎么追逐,都无法真正触碰到它,这也是大自然给我们留下的小小遗憾吧~

回答一:-9.53125

回答二:-8.609375

回答三:-4.484375

除了上述处理开放问题的灵活性,POLAR 也能解决有标准答案的闭式问题。相比 " 基于规则的验证 "(RLVR)所提供的 0/1 二元奖励,POLAR 可以提供更加细粒度的偏好区分。

下面是一个例子:

问题:公交车上原本有 10 名乘客,到站后下去了 3 名,上来了 5 名,现在车上有多少名乘客?

参考答案: 10 名乘客 - 3 名下车 + 5 名上车。答案是 12。

回答一(答案正确,思路正确):最初有 10 名乘客,到站后 3 个人下车,因此剩下 7 人;又新上来了 5 人,7 人加上 5 人,总共是 12 人。因此最终有 12 名乘客。

分数:-5.1953125

回答二(答案正确,无思路):现在车上有 12 名乘客。

分数:-5.6171875

回答三(答案错误,思路正确):10 名乘客 - 3 名下车 + 5 名上车。答案是 13。

分数:  -8.953125

回答四(答案正确,思路错误):10 名乘客 + 3 名下车 - 5 名上车。答案是 12。

分数:  -9.5859375

回答五(答案错误,无思路):现在车上有 13 名乘客。

分数:-11.0703125

回答六(答案错误,思路错误):10 名乘客 + 3 名下车 - 5 名上车。答案是 13。

分数:-12.125

由此可见,POLAR 不仅摆脱了传统奖励模型 " 绝对偏好 " 的限制,更加弥补了 RLVR 难以拓展场景、奖励信号稀疏等问题。

POLAR 基于参考答案对模型输出进行打分,对更加接近参考答案的输出赋予更高的奖励值,在强化学习过程中让训练策略逐步向最优策略偏移。

这种特性使得 POLAR完美契合强化微调框架(Reinforcement Fine-tuning,RFT),让 RFT 在通用场景的应用成为可能。

POLAR 是如何训练的

在探讨 POLAR 的训练方式之前,我们首先回顾一下大语言模型(LLM)的成功之路。

传统的机器学习是为特定的任务训练特定的模型,例如为翻译任务训练翻译模型,很难做到任务间的泛化。

LLM 的成功就在于用 Next Token Prediction 的形式统一了所有任务,解决了任务形式不同导致无法泛化的难题。

现在奖励模型(RM)的设计仍然在重蹈传统方案的老路,即为特定场景标注偏好数据,训特定场景的 RM。

其中,RM 的打分标准是基于人类偏好来设定的,而打分标准就如同 LLM 的任务形式,具有多样性且无法穷举。

那么,能不能仿照 LLM 的成功之路,重新设计 RM 的训练范式,就像消除 LLM 的 " 任务形式 " 一样,找到一个脱离于 " 打分标准 " 之外的更本质的优化目标函数来进行预训练呢?

正是基于这样的思路,上海 AI Lab 提出了预训练奖励模型POLAR

POLAR 的两阶段训练(预训练和偏好微调)以及在 RFT 中的使用方法

与传统的基于 " 绝对偏好 " 的奖励建模方式不同,POLAR 通过衡量训练策略与目标策略之间的 "距离" 来作为奖励信号。当训练策略越接近目标策略时,POLAR 就给予越高的奖励。

具体来说,POLAR 使用了一种对比学习(Contrastive Learning)的方式学会策略分布的距离度量:同一个策略模型采样的结果作为正例,不同策略模型采样的结果作为负例

通过这种方式构造正负样本,虽然有一些反直觉,但它是一种真正无偏的信号,和对抗生成网络(GAN)中判断是否是真实样本类似。

由于 " 距离 " 是一种相对性的概念,因此目标策略可任意指定,从而摆脱了对偏好数据人工标注的依赖,具有极强的可扩展潜力。实际上,POLAR 的预训练语料完全通过自动化合成数据构建

具体而言,研究人员从 LLM 预训练语料中采样出大量的文本前缀,并从策略模型池(由开源的131个 Base LLM 和53个 Chat LLM 组成)中随机取模型进行轨迹采样。预训练目标使用 Bradley-Terry Loss:

其中,A1 和 A2 代表相同策略模型生成的轨迹(正样本对);B1 代表不同策略模型生成的轨迹(负样本)。

由于 " 距离 " 具有相对性,这里的 A 和 B 两个策略模型可以任意选取。例如,A1 和 A2 可以由 Qwen 1.5B 采样得到,B1 可以由 Qwen 72B 采样得到。通过这种方式,POLAR 的预训练语料非常容易扩展。

POLAR 使 RM 学会为相近策略产生的轨迹赋予更高奖励,从而隐式建模策略分布的差异和距离。在这一阶段,POLAR-1.8B 共使用了0.94T Token的预训练数据,POLAR-7B 共使用了3.6T Token的预训练数据。

在预训练阶段之后,POLAR 可以使用少量的偏好数据对齐人类偏好。具体来说,对于同一个 Prompt,采样三条轨迹,由人工标注偏好顺序。同样使用 Bradley-Terry Loss 进行微调:

其中,A > B > C,分别代表偏好最优、次优、最差的轨迹。这种偏好排序隐式定义了一种 " 策略差异 ",例如 A 可以视为从最佳策略分布中采样得到,而 C 可以视为从一个与最佳策略相差较远的策略分布中采样得到。

POLAR 具有 Scaling 效应吗?

POLAR 的 Scaling Laws

一个重要的问题是,POLAR 预训练范式是否真的能展现 Scaling 效应?

研究人员从模型参数 N 和计算量 C 两个方面进行了实验。

如图所示,POLAR 的验证集损失随模型参数 N 的增加呈幂律关系下降,拟合的 R2 值为 0.9886。

验证集损失也随最优训练计算量 C 的增加呈幂律关系下降,拟合的 R2 值为 0.9912。

这些结果表明,分配更多的计算资源将持续带来更好的 POLAR 性能。也就是说,新范式展现出了与大语言模型 Next Token Prediction 目标类似的 Scaling Laws。

这体现了 POLAR 预训练方法的显著扩展优势,以及用于构建更通用和更强大的奖励模型的巨大潜力。

POLAR 效果如何?

研究人员通过一系列实验证明,POLAR 能做到对性能和泛化的双重保证。

偏好评估实验结果

在偏好评估方面,POLAR 展现出优越的性能和全面性,在大多数任务维度上优于 SOTA 奖励模型。

例如,在 STEM 任务中,POLAR-1.8B 和 POLAR-7B 分别超越了最佳基线 24.9 和 26.2 个百分点,并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别,准确预测人类偏好。

值得注意的是,POLAR-1.8B 仅有 1.8B 参数,就可取得与 Skywork-Reward-27B 和 WorldPM-72B-UltraFeedback(参数量分别为其 15 倍和 40 倍)相当的结果,凸显了 POLAR 的强大潜力。

强化微调实验结果

在强化微调实验中,POLAR 持续优于 SOTA 的开源奖励模型。

例如,使用 POLAR-7B 微调的 Llama-3.1-8B 在所有基准测试中,相对于初始结果平均提升了 9.0%,相对于 WorldPM-72B-UltraFeedback 优化的结果提升了 6.7%。

POLAR 能够从预训练阶段学习策略模型之间的细微区别,而不仅仅依赖于标注的偏好对,从而显著增强了实际 RL 应用时的奖励信号泛化性。

实验结果表明,尽管 POLAR-1.8B 和 POLAR-7B 在偏好评估中表现相似,但在下游 RL 实验中,POLAR-7B 展现出了显著优势。从 1.8B 到 7B 的效果提升,进一步说明了 POLAR 所具有的 Scaling 效应。

总结来说,POLAR 在预训练阶段通过对比学习建模策略间的距离,仅需少量偏好样本就可对齐人类偏好。在使用阶段,POLAR 利用 RFT 范式对 LLM 进行强化学习,展现出了极佳的泛化性。POLAR 作为一种全新的、可扩展的奖励模型预训练方法,为 LLM 后训练带来了新的可能,让通用 RFT 多了一种有效实践方案。有望打通 RL 链路 Scaling 的最后一环。

论文链接:https://arxiv.org/pdf/2507.05197

项目链接:https://github.com/InternLM/POLAR

模型链接:https://huggingface.co/internlm/POLAR-7B

* 本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

上海 ai 效果 人工智能
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论