奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习改变了大语言模型的后训练范式，可以说，已成为 AI 迈向 AGI 进程中的关键技术节点。

然而，其中奖励模型的设计与训练，始终是制约后训练效果、模型能力进一步提升的瓶颈所在。

当前，大模型在Next Token Prediction和Test-time Scaling两种扩展范式下，通过大规模的数据和模型扩展，实现了能力的持续跃升。但相比之下，奖励模型缺乏系统性的预训练和扩展方法，导致其能力难以随计算量增长而持续提升，成为阻碍强化学习链路进一步扩展的短板。

如何解决？

现在，来自上海人工智能实验室的研究团队提出了一种新的思路：

他们找到了一种与绝对偏好解耦的、可以真正高效扩展的奖励建模新范式——策略判别学习（Policy Discriminative Learning， POLAR），使奖励模型能够像大语言模型一样，具备可扩展性和强泛化能力。

POLAR 为大模型后训练带来突破性进展，并有望打通 RL 链路扩展的最后一环。

什么是 POLAR

先来看一下 POLAR 能做到什么。

与传统的奖励模型不同，POLAR 是根据参考答案为模型的输出打分。这意味着 POLAR 可以灵活地基于不同场景的参考答案给出不同的奖励分数，轻松适配多样的定制化需求。

下面是一个开放问题的例子，对应有三个不同风格的回复：

问题：彩虹是怎么形成的？

回答一：彩虹是阳光经过水滴折射和反射后形成的。

回答二：当阳光照射到空气中的小水滴时，光线会进入水滴发生折射，再从水滴的内壁反射后再次折射出水滴。由于不同波长的光折射角度不同，最终呈现出不同的颜色，这些颜色组合起来就形成了我们所看到的彩虹。

回答三：彩虹是阳光通过空气中的水滴折射和反射后形成的。生活中我们经常在雨后或喷泉、水幕附近看到彩虹，有时候还会看到双彩虹甚至三重彩虹呢！不过很可惜，彩虹本身只是光学现象，没法真正走近摸到。

对于这种开放问题，不同的用户可能会偏向不同风格的回复。此时，传统奖励模型的 " 绝对偏好 " 无法灵活应对不同的定制化场景。而 POLAR 只需要根据不同的参考回复，即可为三种回答给出不同的偏序关系，无需重新训练奖励模型。

来看 POLAR 实际打分的例子。如果给定的参考风格是简短扼要，POLAR 会给第一个回答最高的分数。

参考一：阳光穿过水滴的折射与反射形成了彩虹。

回答一：-2.095703125

回答二：-5.859375

回答三：-7.44921875

如果参考的是详细分析风格，POLAR 会给第二个回答最高分。

参考二：彩虹是阳光经过空气中的许多小水滴后，通过连续的折射与反射而产生的。当阳光进入水滴时，光线首先被折射进入水滴内部，然后在水滴内壁发生一次反射，随后再次折射射出水滴。因为阳光中不同颜色的光线波长各不相同，折射时产生的角度也略有差别，这使得光线被分解成红、橙、黄、绿、蓝、靛、紫等颜色，从而形成了我们所看到的绚丽彩虹。

回答一：-8.5625

回答二：-5.2421875

回答三：-8.125

如果参考的是俏皮发散风格，此时第三个回答的奖励分数最高。

参考三：彩虹是阳光经过水滴折射和反射后形成的。在日常生活中，只要条件合适，比如刚下完雨、喷泉边，甚至在水幕电影附近，都能邂逅这种美丽的景象。不过呢，虽然彩虹看上去很近，但它毕竟只是光的奇妙游戏，我们无论怎么追逐，都无法真正触碰到它，这也是大自然给我们留下的小小遗憾吧～

回答一：-9.53125

回答二：-8.609375

回答三：-4.484375

除了上述处理开放问题的灵活性，POLAR 也能解决有标准答案的闭式问题。相比 " 基于规则的验证 "（RLVR）所提供的 0/1 二元奖励，POLAR 可以提供更加细粒度的偏好区分。

下面是一个例子：

问题：公交车上原本有 10 名乘客，到站后下去了 3 名，上来了 5 名，现在车上有多少名乘客？

参考答案： 10 名乘客 - 3 名下车 + 5 名上车。答案是 12。

回答一（答案正确，思路正确）：最初有 10 名乘客，到站后 3 个人下车，因此剩下 7 人；又新上来了 5 人，7 人加上 5 人，总共是 12 人。因此最终有 12 名乘客。

分数：-5.1953125

回答二（答案正确，无思路）：现在车上有 12 名乘客。

分数：-5.6171875

回答三（答案错误，思路正确）：10 名乘客 - 3 名下车 + 5 名上车。答案是 13。

分数： -8.953125

回答四（答案正确，思路错误）：10 名乘客 + 3 名下车 - 5 名上车。答案是 12。

分数： -9.5859375

回答五（答案错误，无思路）：现在车上有 13 名乘客。

分数：-11.0703125

回答六（答案错误，思路错误）：10 名乘客 + 3 名下车 - 5 名上车。答案是 13。

分数：-12.125

由此可见，POLAR 不仅摆脱了传统奖励模型 " 绝对偏好 " 的限制，更加弥补了 RLVR 难以拓展场景、奖励信号稀疏等问题。

POLAR 基于参考答案对模型输出进行打分，对更加接近参考答案的输出赋予更高的奖励值，在强化学习过程中让训练策略逐步向最优策略偏移。

这种特性使得 POLAR完美契合强化微调框架（Reinforcement Fine-tuning，RFT），让 RFT 在通用场景的应用成为可能。

POLAR 是如何训练的

在探讨 POLAR 的训练方式之前，我们首先回顾一下大语言模型（LLM）的成功之路。

传统的机器学习是为特定的任务训练特定的模型，例如为翻译任务训练翻译模型，很难做到任务间的泛化。

LLM 的成功就在于用 Next Token Prediction 的形式统一了所有任务，解决了任务形式不同导致无法泛化的难题。

现在奖励模型（RM）的设计仍然在重蹈传统方案的老路，即为特定场景标注偏好数据，训特定场景的 RM。

其中，RM 的打分标准是基于人类偏好来设定的，而打分标准就如同 LLM 的任务形式，具有多样性且无法穷举。

那么，能不能仿照 LLM 的成功之路，重新设计 RM 的训练范式，就像消除 LLM 的 " 任务形式 " 一样，找到一个脱离于 " 打分标准 " 之外的更本质的优化目标函数来进行预训练呢？

正是基于这样的思路，上海 AI Lab 提出了预训练奖励模型POLAR。

△POLAR 的两阶段训练（预训练和偏好微调）以及在 RFT 中的使用方法

与传统的基于 " 绝对偏好 " 的奖励建模方式不同，POLAR 通过衡量训练策略与目标策略之间的 "距离" 来作为奖励信号。当训练策略越接近目标策略时，POLAR 就给予越高的奖励。

具体来说，POLAR 使用了一种对比学习（Contrastive Learning）的方式学会策略分布的距离度量：同一个策略模型采样的结果作为正例，不同策略模型采样的结果作为负例。

通过这种方式构造正负样本，虽然有一些反直觉，但它是一种真正无偏的信号，和对抗生成网络（GAN）中判断是否是真实样本类似。

由于 " 距离 " 是一种相对性的概念，因此目标策略可任意指定，从而摆脱了对偏好数据人工标注的依赖，具有极强的可扩展潜力。实际上，POLAR 的预训练语料完全通过自动化合成数据构建。

具体而言，研究人员从 LLM 预训练语料中采样出大量的文本前缀，并从策略模型池（由开源的131个 Base LLM 和53个 Chat LLM 组成）中随机取模型进行轨迹采样。预训练目标使用 Bradley-Terry Loss：

其中，A1 和 A2 代表相同策略模型生成的轨迹（正样本对）；B1 代表不同策略模型生成的轨迹（负样本）。

由于 " 距离 " 具有相对性，这里的 A 和 B 两个策略模型可以任意选取。例如，A1 和 A2 可以由 Qwen 1.5B 采样得到，B1 可以由 Qwen 72B 采样得到。通过这种方式，POLAR 的预训练语料非常容易扩展。

POLAR 使 RM 学会为相近策略产生的轨迹赋予更高奖励，从而隐式建模策略分布的差异和距离。在这一阶段，POLAR-1.8B 共使用了0.94T Token的预训练数据，POLAR-7B 共使用了3.6T Token的预训练数据。

在预训练阶段之后，POLAR 可以使用少量的偏好数据对齐人类偏好。具体来说，对于同一个 Prompt，采样三条轨迹，由人工标注偏好顺序。同样使用 Bradley-Terry Loss 进行微调：

其中，A > B > C，分别代表偏好最优、次优、最差的轨迹。这种偏好排序隐式定义了一种 " 策略差异 "，例如 A 可以视为从最佳策略分布中采样得到，而 C 可以视为从一个与最佳策略相差较远的策略分布中采样得到。

POLAR 具有 Scaling 效应吗？

△POLAR 的 Scaling Laws

一个重要的问题是，POLAR 预训练范式是否真的能展现 Scaling 效应？

研究人员从模型参数 N 和计算量 C 两个方面进行了实验。

如图所示，POLAR 的验证集损失随模型参数 N 的增加呈幂律关系下降，拟合的 R2 值为 0.9886。

验证集损失也随最优训练计算量 C 的增加呈幂律关系下降，拟合的 R2 值为 0.9912。

这些结果表明，分配更多的计算资源将持续带来更好的 POLAR 性能。也就是说，新范式展现出了与大语言模型 Next Token Prediction 目标类似的 Scaling Laws。

这体现了 POLAR 预训练方法的显著扩展优势，以及用于构建更通用和更强大的奖励模型的巨大潜力。

POLAR 效果如何？

研究人员通过一系列实验证明，POLAR 能做到对性能和泛化的双重保证。

△偏好评估实验结果

在偏好评估方面，POLAR 展现出优越的性能和全面性，在大多数任务维度上优于 SOTA 奖励模型。

例如，在 STEM 任务中，POLAR-1.8B 和 POLAR-7B 分别超越了最佳基线 24.9 和 26.2 个百分点，并且能够准确识别推理、聊天、创意写作等通用任务中轨迹的细微区别，准确预测人类偏好。

值得注意的是，POLAR-1.8B 仅有 1.8B 参数，就可取得与 Skywork-Reward-27B 和 WorldPM-72B-UltraFeedback（参数量分别为其 15 倍和 40 倍）相当的结果，凸显了 POLAR 的强大潜力。

△强化微调实验结果

在强化微调实验中，POLAR 持续优于 SOTA 的开源奖励模型。

例如，使用 POLAR-7B 微调的 Llama-3.1-8B 在所有基准测试中，相对于初始结果平均提升了 9.0%，相对于 WorldPM-72B-UltraFeedback 优化的结果提升了 6.7%。

POLAR 能够从预训练阶段学习策略模型之间的细微区别，而不仅仅依赖于标注的偏好对，从而显著增强了实际 RL 应用时的奖励信号泛化性。

实验结果表明，尽管 POLAR-1.8B 和 POLAR-7B 在偏好评估中表现相似，但在下游 RL 实验中，POLAR-7B 展现出了显著优势。从 1.8B 到 7B 的效果提升，进一步说明了 POLAR 所具有的 Scaling 效应。

总结来说，POLAR 在预训练阶段通过对比学习建模策略间的距离，仅需少量偏好样本就可对齐人类偏好。在使用阶段，POLAR 利用 RFT 范式对 LLM 进行强化学习，展现出了极佳的泛化性。POLAR 作为一种全新的、可扩展的奖励模型预训练方法，为 LLM 后训练带来了新的可能，让通用 RFT 多了一种有效实践方案。有望打通 RL 链路 Scaling 的最后一环。

论文链接：https://arxiv.org/pdf/2507.05197

项目链接：https://github.com/InternLM/POLAR

模型链接：https://huggingface.co/internlm/POLAR-7B

* 本文系量子位获授权刊载，观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签