量子位 06-23
只训练数学,却在物理化学生物战胜o1!新强化学习算法带来显著性能提升,还缓解训练崩溃问题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

只训练数学,却在物理化学生物战胜 o1!强化学习提升模型推理能力再添例证。

来自上海创智学院、上海 AI Lab 的 MM-Eureka 系列工作提出了新的强化学习算法 CPGD(Clipped Policy Gradient Optimization with Policy Drift)——

相比于传统 GRPO、RLOO 等算法显著缓解了训练不稳定(甚至崩溃)的问题,并带来显著性能提升。

在多个基准测试上,使用 GRPO 训练的模型在 QwenVL2.5-7B 基础上平均提升了 6%,而采用 CPGD 的 MM-Eureka-CPGD-7B 则进一步将整体提升幅度扩大到 11%,验证了 CPGD 在稳定性与性能上的双重优势。

具体的,相较基础模型 QwenVL2.5-7B,基于 CPGD 和 15k 多模态数学数据 MMK12 训练的模型 MM-Eureka-CPGD-7B 在 MMK12 测试集(包括数学,以及训练数据分布外领域的物理、化学、生物)上平均提升 21.8%,在 MathVista 和 MathVision 等训练数据分布外领域上也分别提升 8.5% 与 11.4%,展现了优异的泛化能力。

模型规模扩展到 MM-Eureka-CPGD-32B 上则进一步在 MMK12 测试集上超越了 o1,值得注意的是,尽管 MM-Eureka-CPGD-32B 只在数学数据集上进行 RL 训练,但在物理、化学和生物等学科均超过了 o1

不同模型在 MMK12 测试集中不同学科上的表现

近日,MM-Eureka 系列工作在底层训练框架、高质量多模态推理数据、高效稳定的 RL 训练算法和过程奖励模型等方面持续耕耘,在近期取得重要进展。

多模态强化学习框架

基于 OpenRLHF,团队构建了一个高效、可扩展的多模态强化学习框架,支持 Qwen-VL、InternVL 等多种模型与 RL 算法,包括 GRPO、REINFORCE++、RLOO,以及提出的新型 RL 算法 CPGD,并已成功训练出 Qwen2.5VL-32B、InternVL2.5-38B 等大型模型。

该框架相较于已有方案(如 R1-V),具备更强的可扩展性与稳定性,为大规模多模态强化学习提供了基础设施支撑。

强化学习训练的稳定性突破:CPGD 算法

在第一阶段的探索中,团队发现移除新策略与参考模型之间的 KL 散度项后,规则型强化学习训练在性能上限和资源效率方面表现更优。然而,这也极易导致训练过程不稳定甚至崩溃。

为此,团队在 GRPO 算法的基础上,提出了双边裁剪、online filter 以及两阶段训练等应对方案,构建了 MM-Eureka-7B 与 MM-Eureka-32B 模型,并获得良好结果。

尽管上述方法在实践中有效,但仍存在繁琐且治标不治本的问题。团队在深入分析后发现,问题核心在于新旧策略比值的极端高值行为

为此,他们提出新算法CPGD(Clipped Policy Gradient Optimization with Policy Drift),主要特性包括:

策略比值对数化处理:在原始 PPO 损失基础上,团队将策略比值取对数,以削弱异常高值的影响,使训练过程更稳定,解决了现有的规则型强化学习方法(如 GRPO、REINFORCE++、RLOO)常面临训练崩溃与梯度不稳定的问题。

引入策略漂移项(Policy Drift):在损失函数中引入新旧策略之间的 KL 散度项,有效约束策略变化幅度。团队证明了 CPGD 对策略漂移的控制能力优于 PPO,并具有理论收敛性保障。

细粒度、可实现的损失函数形式:团队设计了按 token 粒度计算的损失函数,可拆分的裁剪项结合加权优势函数,既便于引入 GRPO 式归一化,也兼容 online filter 策略的等价加权方式。

新型 KL 估计器:在 K3 估计器基础上,团队构造了新的 KL 估计方式,以在保持梯度方向准确性的同时缓解高方差问题。

借助 CPGD,团队成功训练出MM-Eureka-CPGD-7B/32B两个版本的推理模型,不仅显著提升了稳定性,还进一步提高了性能表现。

值得注意的是,近期 Minimax 发布的 M1 模型中提出的 CISPO 优化算法也提出了相应的训练不稳定瓶颈和基于 policy gradient 的改进方案,与在五月开源的 CPGD 算法有异曲同工之妙。

显著性能提升,泛化能力优越

在多个数据集上的测试表明,CPGD 带来的性能提升显著:

相较基础模型 QwenVL2.5-7B,MM-Eureka-CPGD-7B 在 MMK12 上提升 21.8%,在 MathVista 和 MathVision 等训练数据分布外领域上也分别提升 8.5% 与 11.4%,展现了较好的泛化能力;

对比主流强化学习算法(GRPO、REINFORCE++、RLOO 等),CPGD 在稳定性、性能和泛化能力上全面领先,;在多个基准测试上,使用 GRPO 训练的模型在 QwenVL2.5-7B 基础上平均提升了 6%,而采用 CPGD 的 MM-Eureka-CPGD-7B 则进一步将整体提升幅度扩大到 11%;

在与同规模开源模型对比中,MM-Eureka-CPGD-32B 模型已接近闭源模型的表现。

不同模型的表现

其中 Overall 的计算是以 QwenVL2.5-7B 为基准。表现最佳的模型以粗体显示,第二好的模型以下划线显示(不包括 OpenAI-o1/GPT-4o)

不同模型的表现

其中 Overall 的计算是以 QwenVL2.5-32B 为基准。表现最佳的模型以粗体显示,第二好的模型以下划线显示(不包括 OpenAI-o1/GPT-4o)

高质量多模态数学数据集 MMK12

为解决现有数据集题型单一、答案不准的问题,团队推出了 MMK12 数据集,覆盖小学至高中阶段、总计超过 15000 道多模态数学推理题,涵盖几何、函数、图形推理等典型领域。

每道题都包含:

图文题干与配图;

标准答案;

结构化的思维链(Chain-of-Thought)解题过程。

MM-PRM:自动化过程监督,推理路径更可信

推理不应只关注最终答案,更重要的是每一步是否合理。为此,团队推出 MM-PRM(多模态过程奖励模型),关注模型 " 如何推理 " 的过程本身。

三阶段全自动过程监督流程:

使用 500 万条数据训练获得推理增强的 MM-Policy 模型;

结合 MCTS 自动生成超过 70 万条推理过程标注;

基于上述数据训练过程奖励模型 MM-PRM,对每一步推理进行评估与引导。

它具备以下优势:

高效生成,无需人工标注:仅用 1 万道 K12 数学题,即可生成大规模过程监督数据;

显著提升推理路径质量:模型推理步骤更加严谨,而非仅靠 " 撞对 " 答案;

跨任务泛化性强:在 MMK12 准确率提升近 9%,在 MathVista、OlympiadBench 等挑战集上同样表现优异;

全模型适用:适配从 8B 到 78B 的多种规模模型;

训练稳定性强:结合小学习率与软标签策略,有效降低训练崩溃风险。

对强化学习与推理能力的思考

推理能力能否脱离知识独立发展?

团队观察到:强化学习显著提高了模型在 " 曾经答对过 " 的问题上的表现,但对 " 始终无法答对 " 的问题,效果有限。这表明 RL 主要在优化已有知识调用和推理路径的组织上发挥作用,但无法替代知识本身的缺失

RL 比 SFT 泛化能力更强

通过实验,他们发现 RL 在跨学科任务(如物理、化学、生物)中的泛化能力远超 SFT 或 CoT-SFT。以数学与物理为例,RL 分别带来 12.8 和 10.8 分的提升,而其他方法几乎无效。这进一步说明,强化学习可能是提升模型逻辑推理能力的关键路径

PRM 与 RL 的结合具备潜力,值得进一步探索

目前的强化学习训练多聚焦于最终答案的准确性,尚未充分利用推理过程中的中间监督信号。团队认为,PRM 有望成为强化学习训练的重要补充。通过对模型每一步推理过程的打分与引导,PRM 可以提供更细粒度的反馈,帮助模型在策略优化中更稳定地提升推理质量与可解释性。未来,团队计划探索将 PRM 与 RL 框架相结合,以构建 " 结果 + 过程 " 双重优化的多模态推理体系。这不仅有助于提升模型在复杂推理任务中的稳健性,也可能为构建可控、安全的通用推理能力奠定基础。

他们在策略优化与过程监督两个核心方向,分别推出 MM-Eureka-CPGD 与 MM-PRM,构建了一套高度自动化、可复现、训练稳定、效果显著的多模态推理方案。

该方案实现了准确率与推理长度的稳定提升;推理路径的可控化与解释性增强,以及在多个任务与模型规模上的广泛适配与泛化能力。

目前已开源所有模型、代码与数据,并提供完整技术报告,欢迎社区参与共建。未来,团队将持续推进更高水平的多模态推理训练与系统化优化,敬请关注!

开源代码:

https://github.com/ModalMinds/MM-EUREKA

https://github.com/ModalMinds/MM-EUREKA/tree/mm-prm

技术报告:

https://arxiv.org/abs/2503.07365

https://arxiv.org/abs/2505.12504

https://arxiv.org/abs/2505.13427

MMK12 数据集:

https://huggingface.co/datasets/FanqingM/MMK12

模型权重:

https://huggingface.co/FanqingM/MM-Eureka-Qwen-7B

https://huggingface.co/FanqingM/MM-Eureka-Qwen-32B

https://huggingface.co/Zkkkai/CPGD-7B

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

数学 生物 物理 上海 化学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论