让智能体自己摸索新方法,还模仿自己的成功经验。
腾讯优图实验室开源强化学习算法——
SPEAR(Self-imitation with Progressive Exploration for Agentic Reinforcement Learning)。
主打一个让 AI 自学成才!
该算法首次让大语言模型(LLM)驱动的智能体在无需大量专家示范的情况下,通过 " 自我模仿 + 渐进探索 " 实现熵稳定的学习过程。
在 ALFWorld、WebShop、AIME24/25 等基准上平均提升 16% 以上,刷新业界最佳成绩,为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。
△SPEAR 算法核心概念示意图
简单来说,SPEAR 算法既能大胆尝试新方法,又能靠谱地用已经验证过的有效策略,不用走极端。
下面具体来看。
传统自我模仿学习是什么?
想象一位新手厨师:
他先随机尝试做菜,偶尔做出一道 " 好评爆表 " 的拿手菜;
他把这道菜的做法仔细记录,反复练习,并在此基础上微调口味;
下次做菜时,他只复刻那些 " 好评 " 操作,不再重复黑暗料理。
自我模仿学习(Self-Imitation Learning,SIL)就是把这套 " 只抄自己最好的作业 " 的思路搬进强化学习:
智能体在探索过程中把高回报轨迹存进 " 成功日记 "(Replay Buffer);
训练时定期回放这些高分片段,额外学习这些优质轨迹;
给自己打 " 样例补丁 ",在稀疏奖励、长序列任务里把偶尔闪现的神操作变成稳定技能。
自我模仿 2.0:自己产出的 " 神操作 " 自己学熵控崩溃终结者:让智能体 " 越学越稳 "
在使用 RL 算法优化 LLM 驱动的智能体时,尝尝面临两大问题:
1)直接搬运传统自我模仿算法带来 " 熵塌缩 " 陷阱——过早自信,拒绝探索新解法;
2)多轮交互中由不确定、不熟悉的环境带来的 " 熵爆炸 " ——训练发散,无法收敛。
SPEAR 提出 " 课程式调度 " 来实现分阶段的探索:
前期用内在奖励鼓励 " 多翻工具箱 ",熵值温和上升;
后期启动自模仿学习,只回放高回报轨迹,熵值平滑下降。
实验显示,SPEAR 把策略熵牢牢锁在 " 黄金区间 ",实现测试指标的持续增长。
△自我模仿学习在后期提升 action-level 的策略探索
SPEAR 升级经典 SIL 的具体操作:
课程权重—— warm-up 阶段先轻后重,让模型先 " 见世面 " 再 " 抄作业 "。
优势重校准——用动态中位数基线淘汰 " 过时神操作 ",减小 off-policy 偏差;
协方差裁剪——把过度优化的 token 直接 mask,防止死记硬背;
一句话:好经验不过期,坏经验不上桌。
内在奖励优化:解决 " 瞎忙 " 难题
在稀疏奖励场景里,模型只有 " 做对给 +1,做错给 -1" 这一终极信号。实验发现,如果不给中间甜头,智能体面对代码报错、搜索无果等负面反馈,会立刻 " 罢工:
把工具接口当空气,纯靠脑补硬推答案;
数学任务上拒绝写代码,全程文本口算,无法学会结合工具的推理。
于是团队先加了 " 工具调用奖励 ":每成功调用一次工具,就给 0.1 奖励,上限 1 分,保证模型 " 愿意拿起锅铲 "。
但是,单纯奖励 " 多次调用工具 " 会导致 reward hacking 副作用—不必要的工具调用,最终输出长度和交互轮次超限而截断,带来优化上的震荡(多奖励之间的竞争)。
SPEAR 通过设计内在奖励实现工具奖励衰减:
前 200 步时,工具调用奖励 >0,鼓励学会 " 写代码、查网页 ";
工具调用奖励随步数按 cosine 衰减,在 200 步以后置零,让位给最终答案准确率。
在 DAPO-Math-17K 训练集上,Qwen2.5-32B 的 AIME25 成绩从 54.0% 提升到 60.1%,只用 16K 上下文就追平 32K 推理效果。
△自我模仿学习在前期提升 skill-level 的技能探索工业级 " 百宝袋 " 增强基线:Dr.BoT
结合业界现有的多种 agentic RL 训练技巧(bag-of-tricks),研究团队给出了组合的新基线Dr.BoT:
七剑合璧:移除 KL、去长度归一化、去标准差归一化、clip-higher、超长及空洞回复过滤、高方差组过滤。
兼容 GRPO/GiGPO 等 backbone 方法,零成本接入 SPEAR。
△SPEAR 接入已有训练算法(GRPO/GiGPO)时的数据流向算法通吃:文本、代码、视觉全能打
在聚焦家居场景下复杂指令理解与分步操作能力的 ALFWorld 家务模拟任务中,接入 SPEAR 算法的模型任务成功率达 88.9%,创下该任务当前最优水平。
在网页环境导航、商品筛选与决策执行能力的 WebShop 网页购物测评里,模型能模拟用户完成从浏览商品到下单的全流程,1.5B 模型成功率从 56.8% 飙升至 77.5%,提升 20.7%,训练时间仅增加 5%。
做到了真正的大提升小成本。
△SPEAR 在 ALFWorld 与 WebShop 上的表现
在 AIME24、AIME25 奥赛数学任务,模型在代码解释器辅助模式下,分别取得 71.0%、61.0% 的结题正确率,为该模式下最优结果。
△SPEAR 在 AIME24/AIME25 上的表现
而在测试视觉场景分析与空间路径规划能力的 Sokoban 视觉推箱子任务中,模型不仅取得 86.7% 的成功率,还较此前公开的最佳性能提升 19.6%。
△SPEAR 在 Sokoban 小游戏上的表现
下图展示了智能体在训练初期 " 无目的探索 " 状态(a)和训练后期能熟练掌握推箱子策略(b)的对比。
△VLM 驱动的智能体成功学会推箱子策略
无论纯文本工具调用场景还是视觉 - 语言混合的游戏任务,SPEAR 均能做到即插即用。
SPEAR 算法框架基于开源社区贡献的 vLLM +VeRL,1.5B 模型 1 小时上手,32B 模型一周出模,让智能体 " 自学成才 "。
目前,SPEAR 代码与模型已上架 GitHub&HuggingFace,感兴趣的朋友可以体验一把~
论文地址:https://arxiv.org/abs/2509.22601
代码:https://github.com/TencentYoutuResearch/SPEAR
模型:https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦