蚂蚁集团携手清华大学开源AReaL，AI推理训练最高提速2.77倍

IT 之家 3 月 4 日消息，蚂蚁集团携手清华大学联合推出开源强化学习训练框架 AReaL v1.0 稳定版，这是一种大规模异步强化学习系统，主要通过解耦生成与训练流程，来提升大语言模型（特别是推理模型）的训练效率。

IT 之家援引博文介绍，随着大语言模型向 " 大推理模型 "（LRM，Large Reasoning Model）演进，强化学习（RL）已成为提升模型逻辑推理能力的关键技术。

然而，现有的 RL 训练系统主流采用同步机制，即生成阶段必须等待批次中所有输出（通常是最长的那个）完成后才能开始训练。

这种 " 木桶效应 " 导致大量 GPU 算力处于闲置状态，制约了训练效率，在处理需要生成数万个思考 Token 的复杂推理任务时表现尤为明显。

研究团队为解决这一瓶颈，开发了 AReaL 系统，这是一个完全异步的 RL 训练架构。AReaL 彻底解耦了模型的生成与训练过程：生成工作器可以连续不断地产生新数据，而训练工作器则在收集到足够数据后立即更新模型。

这种流水线式的并行设计消除了同步等待时间，显著提升了硬件资源的利用率，让整个训练过程更加流畅高效。

在算法层面，AReaL 面临异步带来的数据 " 陈旧度 " 挑战，即训练数据可能来自旧版本的模型。为此，团队设计了陈旧度感知训练机制，通过控制工作负载来平衡数据的新鲜度。

同时，研究团队提出了解耦 PPO 目标函数，并支持 " 可中断生成 " 技术，允许模型在生成过程中无缝更新权重。

实验结果验证了 AReaL 的卓越性能。在数学和代码推理基准测试中，使用相同数量的 GPU，AReaL 相比最先进的同步系统，训练速度最高提升 2.77 倍。更令人惊喜的是，这种加速并未以牺牲准确率为代价，模型的解题能力在部分任务上甚至有所提升。

IT 之家附上参考地址

宙世代