智东西 前天
炼模不再“烧钱”?消耗40万GPU·小时后,Meta开源强化学习重磅研究成果
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

智东西

作者 | 王涵

编辑 | 漠影

强化学习是大语言模型解锁关键能力的核心技术,随着技术迭代,强化学习训练的算力需求呈爆炸式增长,然而,强化学习训练规模化方面长期缺乏科学方法论。

智东西 10 月 24 日消息,10 月 17 日,Meta 发布了一篇名为《The Art of Scaling Reinforcement Learning Compute for LLMs》的论文。

论文就聚焦大语言模型(LLMs)强化学习(RL)训练的规模化问题,通过消耗了超 40 万 GPU 小时算力的实验,提出了可预测的强化学习规模化框架与实用方案 "ScaleRL"。

研究发现,ScaleRL 能够系统性地利用小规模消融实验来预测更大规模下的性能表现,具有明显的可预测能力。

ScaleRL 在数学与代码的联合训练为两个领域分别构建了清晰且平行的幂律趋势,且在延长训练后,实际性能曲线仍与外推曲线保持一致,具有较强的多场景适配能力。

目前,该研究的核心实验数据与 S 型曲线拟合的代码库已经全部开源。

开源地址:

GitHub:https://github.com/devvrit/ScaleRL-Curve-Fitting

论文地址:

arxiv.org/abs/2510.13786

一、背景:强化学习训练算力需求爆炸式增长,但缺少方法论

强化学习是解锁大语言模型关键能力的核心技术,从测试时推理到智能体交互,其性能直接决定模型的核心竞争力。

然而,随着技术迭代,强化学习训练的算力需求呈爆炸式增长—— Deepseek-R1-Zero 的强化学习训练消耗 10 万 H800 GPU 小时,OpenAI 从 o1 到 o3 的强化学习算力投入更是增长超 10 倍。

与算力激增形成鲜明对比的是,行业在强化学习训练规模化方面长期缺乏科学方法论。目前多数企业和机构的强化学习训练还停留在 " 凭经验调参、靠堆算力试错 " 的阶段,既没有成熟的算力 - 性能评估体系,也缺乏明确的设计选择指导,导致大量算力被浪费。这种 " 粗放式投入 " 不仅推高研发成本,更严重制约了学术社区的参与度和行业整体进展。

正是这一核心痛点,促使 Meta 团队启动了这项大规模研究。研究借鉴预训练领域成熟的 " 缩放定律 ",目标为强化学习训练建立可预测的算力 - 性能关系框架。

整个研究累计投入超 40 万 GPU 小时的算力,覆盖数学推理等典型任务,最终提出一套完整的解决方案。

二、核心突破:基于 S 型曲线提出 RL 算力 - 性能预测模型

这个研究最引人注目的突破,就是提出了基于 S 型(Sigmoidal)曲线的 RL 算力 - 性能预测模型。

区别于预训练常用的幂律模型,该曲线能精准捕捉强化学习训练 " 低算力缓慢增长 - 中算力快速提升 - 高算力饱和 " 的客观规律,通过三个关键参数构建起量化评估体系。该模型的核心公式为:

其中,A 代表渐近性能上限,即高算力下模型能达到的性能天花板;B 为缩放指数,直接反映算力效率,数值越大效率越高;C 则是性能达到总增益 50% 时所需的算力,体现中期性能达成速度。

Meta 研究团队通过超 40 万 GPU 小时实验,对 RL 训练的设计选择进行消融,提炼出 3 条核心原则:

1、性能天花板(A)受损失函数、模型精度等关键设计影响;

2、多数常见设计仅影响算力效率,不改变性能上限;

3、稳定方案的缩放轨迹可通过小算力实验外推。

基于以上原则,Meta 研究团队整合实验中最优设计构建了一套最优配置体系 ScaleRL。

ScaleRL 采用 PipelineRL 异步框架提升效率,选用 CISPO 损失函数增强鲁棒性,采用 FP32 精度消除数值偏差,再配合零方差过滤与自适应 prompt 过滤优化数据质量,最后通过强制中断实现稳定的长度控制。

三、ScaleRL 实测:具有可预测性和多场景适配能力

ScaleRL 这一模型的最大价值在于 " 可预测性 "。以往要知道高算力下的训练效果,必须投入完整训练,现在通过小规模低算力实验拟合曲线,就能精准外推高算力表现。

以某 8B 模型训练为例,仅用前 8000 GPU 小时的数据拟合曲线,ScaleRL 就可以外推 16000 GPU 小时的性能,且误差极小,可大幅降低研发试错成本。

为验证模型可靠性,团队还进行了大量消融实验。结果显示,对于 ScaleRL 等稳定方案,小算力实验外推结果与实际训练高度吻合。

更值得关注的是 ScaleRL 的多场景适配能力。在更大批次(2048)、更长序列(32768 tokens)、多任务(数学 + 代码)及更大模型(MoE)等场景下,该方案均能保持可预测的缩放轨迹。

从研究数据上看,研究团队在独立同分布验证数据集上对 S 型曲线进行拟合,对比了 DeepSeek(GRPO)、Qwen-2.5(DAPO)、Magistral 和 Minimax-M1 等常用训练方案,并与 ScaleRL 进行对比。ScaleRL 以 0.61 的渐进奖励值超越其他训练方法。

此外,研究还提炼出关键的稳定性预警指标——生成截断率。实验发现,当训练中的生成截断率超过 10% 时,模型极易出现性能崩溃。

而 ScaleRL 通过强制中断等长度控制设计,能将截断率长期稳定在 5% 以下,为大规模训练的稳定性提供了可靠保障。

结语:Meta 的研究为强化学习训练规模化提供新突破

Meta 团队超 40 万 GPU 小时的实验投入,最终凝结为一套可预测、高适配的规模化解决方案,无疑为大语言模型强化学习训练规模化提供了突破依据。

为推动技术落地,Meta 团队不仅公开了研究的核心实验数据,还开源了 S 型曲线拟合的极简代码库,为全球 AI 研发者提供直接的技术工具。

这些成果连同开源的拟合代码库,为行业降本增效提供了支撑,也降低了学术社区参与大规模强化学习研究的门槛。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

gpu 开源 核心技术 数学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论