IT之家 03-04
蚂蚁集团携手清华大学开源AReaL,AI推理训练最高提速2.77倍
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 3 月 4 日消息,蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版,这是一种大规模异步强化学习系统,主要通过解耦生成与训练流程,来提升大语言模型(特别是推理模型)的训练效率。

IT 之家援引博文介绍,随着大语言模型向 " 大推理模型 "(LRM,Large Reasoning Model)演进,强化学习(RL)已成为提升模型逻辑推理能力的关键技术。

然而,现有的 RL 训练系统主流采用同步机制,即生成阶段必须等待批次中所有输出(通常是最长的那个)完成后才能开始训练。

这种 " 木桶效应 " 导致大量 GPU 算力处于闲置状态,制约了训练效率,在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。

研究团队为解决这一瓶颈,开发了 AReaL 系统,这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程:生成工作器可以连续不断地产生新数据,而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间,显著提升了硬件资源的利用率,让整个训练过程更加流畅高效。

在算法层面,AReaL 面临异步带来的数据 " 陈旧度 " 挑战,即训练数据可能来自旧版本的模型。为此,团队设计了陈旧度感知训练机制,通过控制工作负载来平衡数据的新鲜度。

同时,研究团队提出了解耦 PPO 目标函数,并支持 " 可中断生成 " 技术,允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中,使用相同数量的 GPU,AReaL 相比最先进的同步系统,训练速度最高提升 2.77 倍。更令人惊喜的是,这种加速并未以牺牲准确率为代价,模型的解题能力在部分任务上甚至有所提升。

IT 之家附上参考地址

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

蚂蚁集团 开源 it之家 清华大学 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论