钛媒体 App 9 月 1 日消息,清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源 RLinf,其为首个面向具身智能的 " 渲训推一体化 " 大规模强化学习框架。RLinf 的系统可以抽象为用户层(统一编程接口)、任务层(多后端集成方案)、执行层(灵活执行模式)、调度层(自动化调度)、通信层(自适应通信)和硬件层(异构硬件)6 大层级。相比其他框架的分离式执行模式,RLinf 提出的混合式执行模式,在具身智能训练场景下实现了超 120% 的系统提速,VLA 模型涨幅 40%-60%。同时,RLinf 高度灵活、可扩展的设计使其可快速应用于其他任务,所训练的 1.5B 和 7B 数学推理大模型在 AIME24、AIME25 和 GPQA-diamond 数据集上取得 SOTA。(广角观察)
登录后才可以发布评论哦
打开小程序可以发布评论哦