只训练数学,却在物理化学生物战胜 o1!强化学习提升模型推理能力再添例证。
来自上海创智学院、上海 AI Lab 的 MM-Eureka 系列工作提出了新的强化学习算法 CPGD(Clipped Policy Gradient Optimization with Policy Drift)——
相比于传统 GRPO、RLOO 等算法显著缓解了训练不稳定(甚至崩溃)的问题,并带来显著性能提升。
在多个基准测试上,使用 GRPO 训练的模型在 QwenVL2.5-7B 基础上平均提升了 6%,而采用 CPGD 的 MM-Eureka-CPGD-7B 则进一步将整体提升幅度扩大到 11%,验证了 CPGD 在稳定性与性能上的双重优势。
具体的,相较基础模型 QwenVL2.5-7B,基于 CPGD 和 15k 多模态数学数据 MMK12 训练的模型 MM-Eureka-CPGD-7B 在 MMK12 测试集(包括数学,以及训练数据分布外领域的物理、化学、生物)上平均提升 21.8%,在 MathVista 和 MathVision 等训练数据分布外领域上也分别提升 8.5% 与 11.4%,展现了优异的泛化能力。
模型规模扩展到 MM-Eureka-CPGD-32B 上则进一步在 MMK12 测试集上超越了 o1,值得注意的是,尽管 MM-Eureka-CPGD-32B 只在数学数据集上进行 RL 训练,但在物理、化学和生物等学科均超过了 o1。
△不同模型在 MMK12 测试集中不同学科上的表现
近日,MM-Eureka 系列工作在底层训练框架、高质量多模态推理数据、高效稳定的 RL 训练算法和过程奖励模型等方面持续耕耘,在近期取得重要进展。
多模态强化学习框架
基于 OpenRLHF,团队构建了一个高效、可扩展的多模态强化学习框架,支持 Qwen-VL、InternVL 等多种模型与 RL 算法,包括 GRPO、REINFORCE++、RLOO,以及提出的新型 RL 算法 CPGD,并已成功训练出 Qwen2.5VL-32B、InternVL2.5-38B 等大型模型。
该框架相较于已有方案(如 R1-V),具备更强的可扩展性与稳定性,为大规模多模态强化学习提供了基础设施支撑。
强化学习训练的稳定性突破:CPGD 算法
在第一阶段的探索中,团队发现移除新策略与参考模型之间的 KL 散度项后,规则型强化学习训练在性能上限和资源效率方面表现更优。然而,这也极易导致训练过程不稳定甚至崩溃。
为此,团队在 GRPO 算法的基础上,提出了双边裁剪、online filter 以及两阶段训练等应对方案,构建了 MM-Eureka-7B 与 MM-Eureka-32B 模型,并获得良好结果。
尽管上述方法在实践中有效,但仍存在繁琐且治标不治本的问题。团队在深入分析后发现,问题核心在于新旧策略比值的极端高值行为。
为此,他们提出新算法CPGD(Clipped Policy Gradient Optimization with Policy Drift),主要特性包括:
策略比值对数化处理:在原始 PPO 损失基础上,团队将策略比值取对数,以削弱异常高值的影响,使训练过程更稳定,解决了现有的规则型强化学习方法(如 GRPO、REINFORCE++、RLOO)常面临训练崩溃与梯度不稳定的问题。
引入策略漂移项(Policy Drift):在损失函数中引入新旧策略之间的 KL 散度项,有效约束策略变化幅度。团队证明了 CPGD 对策略漂移的控制能力优于 PPO,并具有理论收敛性保障。
细粒度、可实现的损失函数形式:团队设计了按 token 粒度计算的损失函数,可拆分的裁剪项结合加权优势函数,既便于引入 GRPO 式归一化,也兼容 online filter 策略的等价加权方式。
新型 KL 估计器:在 K3 估计器基础上,团队构造了新的 KL 估计方式,以在保持梯度方向准确性的同时缓解高方差问题。
借助 CPGD,团队成功训练出MM-Eureka-CPGD-7B/32B两个版本的推理模型,不仅显著提升了稳定性,还进一步提高了性能表现。
值得注意的是,近期 Minimax 发布的 M1 模型中提出的 CISPO 优化算法也提出了相应的训练不稳定瓶颈和基于 policy gradient 的改进方案,与在五月开源的 CPGD 算法有异曲同工之妙。
显著性能提升,泛化能力优越
在多个数据集上的测试表明,CPGD 带来的性能提升显著:
相较基础模型 QwenVL2.5-7B,MM-Eureka-CPGD-7B 在 MMK12 上提升 21.8%,在 MathVista 和 MathVision 等训练数据分布外领域上也分别提升 8.5% 与 11.4%,展现了较好的泛化能力;
对比主流强化学习算法(GRPO、REINFORCE++、RLOO 等),CPGD 在稳定性、性能和泛化能力上全面领先,;在多个基准测试上,使用 GRPO 训练的模型在 QwenVL2.5-7B 基础上平均提升了 6%,而采用 CPGD 的 MM-Eureka-CPGD-7B 则进一步将整体提升幅度扩大到 11%;
在与同规模开源模型对比中,MM-Eureka-CPGD-32B 模型已接近闭源模型的表现。
△不同模型的表现
其中 Overall 的计算是以 QwenVL2.5-7B 为基准。表现最佳的模型以粗体显示,第二好的模型以下划线显示(不包括 OpenAI-o1/GPT-4o)
△不同模型的表现
其中 Overall 的计算是以 QwenVL2.5-32B 为基准。表现最佳的模型以粗体显示,第二好的模型以下划线显示(不包括 OpenAI-o1/GPT-4o)
高质量多模态数学数据集 MMK12
为解决现有数据集题型单一、答案不准的问题,团队推出了 MMK12 数据集,覆盖小学至高中阶段、总计超过 15000 道多模态数学推理题,涵盖几何、函数、图形推理等典型领域。
每道题都包含:
图文题干与配图;
标准答案;
结构化的思维链(Chain-of-Thought)解题过程。
MM-PRM:自动化过程监督,推理路径更可信
推理不应只关注最终答案,更重要的是每一步是否合理。为此,团队推出 MM-PRM(多模态过程奖励模型),关注模型 " 如何推理 " 的过程本身。
三阶段全自动过程监督流程:
使用 500 万条数据训练获得推理增强的 MM-Policy 模型;
结合 MCTS 自动生成超过 70 万条推理过程标注;
基于上述数据训练过程奖励模型 MM-PRM,对每一步推理进行评估与引导。
它具备以下优势:
高效生成,无需人工标注:仅用 1 万道 K12 数学题,即可生成大规模过程监督数据;
显著提升推理路径质量:模型推理步骤更加严谨,而非仅靠 " 撞对 " 答案;
跨任务泛化性强:在 MMK12 准确率提升近 9%,在 MathVista、OlympiadBench 等挑战集上同样表现优异;
全模型适用:适配从 8B 到 78B 的多种规模模型;
训练稳定性强:结合小学习率与软标签策略,有效降低训练崩溃风险。
对强化学习与推理能力的思考
推理能力能否脱离知识独立发展?
团队观察到:强化学习显著提高了模型在 " 曾经答对过 " 的问题上的表现,但对 " 始终无法答对 " 的问题,效果有限。这表明 RL 主要在优化已有知识调用和推理路径的组织上发挥作用,但无法替代知识本身的缺失。
RL 比 SFT 泛化能力更强
通过实验,他们发现 RL 在跨学科任务(如物理、化学、生物)中的泛化能力远超 SFT 或 CoT-SFT。以数学与物理为例,RL 分别带来 12.8 和 10.8 分的提升,而其他方法几乎无效。这进一步说明,强化学习可能是提升模型逻辑推理能力的关键路径。
PRM 与 RL 的结合具备潜力,值得进一步探索
目前的强化学习训练多聚焦于最终答案的准确性,尚未充分利用推理过程中的中间监督信号。团队认为,PRM 有望成为强化学习训练的重要补充。通过对模型每一步推理过程的打分与引导,PRM 可以提供更细粒度的反馈,帮助模型在策略优化中更稳定地提升推理质量与可解释性。未来,团队计划探索将 PRM 与 RL 框架相结合,以构建 " 结果 + 过程 " 双重优化的多模态推理体系。这不仅有助于提升模型在复杂推理任务中的稳健性,也可能为构建可控、安全的通用推理能力奠定基础。
他们在策略优化与过程监督两个核心方向,分别推出 MM-Eureka-CPGD 与 MM-PRM,构建了一套高度自动化、可复现、训练稳定、效果显著的多模态推理方案。
该方案实现了准确率与推理长度的稳定提升;推理路径的可控化与解释性增强,以及在多个任务与模型规模上的广泛适配与泛化能力。
目前已开源所有模型、代码与数据,并提供完整技术报告,欢迎社区参与共建。未来,团队将持续推进更高水平的多模态推理训练与系统化优化,敬请关注!
开源代码:
https://github.com/ModalMinds/MM-EUREKA
https://github.com/ModalMinds/MM-EUREKA/tree/mm-prm
技术报告:
https://arxiv.org/abs/2503.07365
https://arxiv.org/abs/2505.12504
https://arxiv.org/abs/2505.13427
MMK12 数据集:
https://huggingface.co/datasets/FanqingM/MMK12
模型权重:
https://huggingface.co/FanqingM/MM-Eureka-Qwen-7B
https://huggingface.co/FanqingM/MM-Eureka-Qwen-32B
https://huggingface.co/Zkkkai/CPGD-7B
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦