一个 7B 奖励模型搞定全学科,大模型强化学习不止数学和代码。
o1/r1 的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数 / 奖励模型比较好设计。
那么,想提升大模型在其他学科领域的能力该怎么办?
腾讯 & 苏州大学团队提出新框架 RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科。
RLVR 使用基于生成模型的软奖励,与传统基于二元规则的奖励相比,在泛化、稳健性和可扩展性方面有显著的提升。
除论文外,还开源了奖励模型和多学科数据集。
7B 奖励模型搞定全学科
研究基于一个有趣的发现:当任务有客观参考答案时,不同大型语言模型在做二元判断 ( 正确 / 错误 ) 时表现出高度一致性。
这或许意味着,并不需要在每个领域都训练一个大规模的奖励模型。相反,直接用现成的大语言模型来充当验证器就能有效。
像这样的二元奖励虽然简单直接,但在参考答案缺乏结构化的领域又不直接适用。
于是研究团队进一步引入基于模型的软奖励(model-basedsoft scroing),相比直接给出 0 或 1 的二元硬标签,软奖励根据生成式验证器判断的置信度打分,有了更高的灵活性。
受启发于 " 大模型判断高度一致 " 的发现,团队用 72B 参数的 Qwen2.5-Instruct 蒸馏出一个 7B 的奖励模型。蒸馏过程不需要领域特定的标注,完全依靠在线探索阶段采集的数据进行训练。
整个过程分为 3 步流水线:
实验数据从 ExamQA 中随机采样了 6000 个问题,广泛分布于理工人文各学科。
实验对比基础模型(Base)、微调基础模型(SFT)、基于规则的 RL、使用 SFT 模型作为验证器,以及本文蒸馏的 RM-7B 模型作为验证器的多种方法,有以下结论:
RM-7B 在自由形式答案任务中表现出色
基于模型的奖励在处理非结构化参考答案场景中优于基于规则的奖励
软奖励在处理多学科任务中,面对复杂判断时比二元奖励表现更好
此外实验还验证了基于模型的奖励在数据量增加时可扩展性更好。
在讨论部分,作者指出本研究中未使用思维链推理(CoT),虽然 CoT 在有参考和无参考的场景中都有用,但对于评估同语言的参考答案和模型响应之间的语义等价性,深入的推理依据是否必要仍有待研究。此外,在 RLVR 的过程奖励建模中,当中间步骤缺乏直接监督时,如何分配奖励也是一个开放问题。
本研究也不对参考答案或模型响应设置格式约束,这样做好处是减少了数据标准化和模式设计的人力投入,但格式相关约束和奖励在这种情况下的作用仍需重新审视。
One More Thing
论文作者腾讯涂兆鹏发帖介绍了这篇文章,探讨强化学习是否可以扩展到数学和编码任务之外。
评论区有网友指出很有可能成立,因为不同的训练方法可以看成有不同边界条件的学习空间。
涂兆鹏也认为这个视角与 RLVR 方法的观点一致。
论文地址:
https://arxiv.org/abs/2503.23829
HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f
参考链接:
[ 1 ] https://x.com/tuzhaopeng/status/1906975869538914570
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
速抢席位!中国 AIGC 产业峰会观众报名通道已开启 ♀️
首批嘉宾曝光啦 百度、无问芯穹、数势科技、生数科技、像素绽放等十数位 AI 领域创变者将齐聚峰会,让更多人用上 AI、用好 AI,与 AI 一同加速成长~
4 月 16 日,就在北京,一起来深度求索 AI 怎么用
一键星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦