腾讯开源强化学习新算法！让智能体无需专家示范就“自学成才”，还即插即用零成本接入

让智能体自己摸索新方法，还模仿自己的成功经验。

腾讯优图实验室开源强化学习算法——

SPEAR（Self-imitation with Progressive Exploration for Agentic Reinforcement Learning）。

主打一个让 AI 自学成才！

该算法首次让大语言模型（LLM）驱动的智能体在无需大量专家示范的情况下，通过 " 自我模仿 + 渐进探索 " 实现熵稳定的学习过程。

在 ALFWorld、WebShop、AIME24/25 等基准上平均提升 16% 以上，刷新业界最佳成绩，为长周期、稀疏奖励场景下的智能体训练提供了即插即用的新范式。

△SPEAR 算法核心概念示意图

简单来说，SPEAR 算法既能大胆尝试新方法，又能靠谱地用已经验证过的有效策略，不用走极端。

下面具体来看。

传统自我模仿学习是什么？

想象一位新手厨师：

他先随机尝试做菜，偶尔做出一道 " 好评爆表 " 的拿手菜；

他把这道菜的做法仔细记录，反复练习，并在此基础上微调口味；

下次做菜时，他只复刻那些 " 好评 " 操作，不再重复黑暗料理。

自我模仿学习（Self-Imitation Learning，SIL）就是把这套 " 只抄自己最好的作业 " 的思路搬进强化学习：

智能体在探索过程中把高回报轨迹存进 " 成功日记 "（Replay Buffer）；

训练时定期回放这些高分片段，额外学习这些优质轨迹；

给自己打 " 样例补丁 "，在稀疏奖励、长序列任务里把偶尔闪现的神操作变成稳定技能。

自我模仿 2.0：自己产出的 " 神操作 " 自己学熵控崩溃终结者：让智能体 " 越学越稳 "

在使用 RL 算法优化 LLM 驱动的智能体时，尝尝面临两大问题：

1）直接搬运传统自我模仿算法带来 " 熵塌缩 " 陷阱——过早自信，拒绝探索新解法；

2）多轮交互中由不确定、不熟悉的环境带来的 " 熵爆炸 " ——训练发散，无法收敛。

SPEAR 提出 " 课程式调度 " 来实现分阶段的探索：

前期用内在奖励鼓励 " 多翻工具箱 "，熵值温和上升；

后期启动自模仿学习，只回放高回报轨迹，熵值平滑下降。

实验显示，SPEAR 把策略熵牢牢锁在 " 黄金区间 "，实现测试指标的持续增长。

△自我模仿学习在后期提升 action-level 的策略探索

SPEAR 升级经典 SIL 的具体操作：

课程权重—— warm-up 阶段先轻后重，让模型先 " 见世面 " 再 " 抄作业 "。

优势重校准——用动态中位数基线淘汰 " 过时神操作 "，减小 off-policy 偏差；

协方差裁剪——把过度优化的 token 直接 mask，防止死记硬背；

一句话：好经验不过期，坏经验不上桌。

内在奖励优化：解决 " 瞎忙 " 难题

在稀疏奖励场景里，模型只有 " 做对给 +1，做错给 -1" 这一终极信号。实验发现，如果不给中间甜头，智能体面对代码报错、搜索无果等负面反馈，会立刻 " 罢工：

把工具接口当空气，纯靠脑补硬推答案；

数学任务上拒绝写代码，全程文本口算，无法学会结合工具的推理。

于是团队先加了 " 工具调用奖励 "：每成功调用一次工具，就给 0.1 奖励，上限 1 分，保证模型 " 愿意拿起锅铲 "。

但是，单纯奖励 " 多次调用工具 " 会导致 reward hacking 副作用—不必要的工具调用，最终输出长度和交互轮次超限而截断，带来优化上的震荡（多奖励之间的竞争）。

SPEAR 通过设计内在奖励实现工具奖励衰减：

前 200 步时，工具调用奖励 >0，鼓励学会 " 写代码、查网页 "；

工具调用奖励随步数按 cosine 衰减，在 200 步以后置零，让位给最终答案准确率。

在 DAPO-Math-17K 训练集上，Qwen2.5-32B 的 AIME25 成绩从 54.0% 提升到 60.1%，只用 16K 上下文就追平 32K 推理效果。

△自我模仿学习在前期提升 skill-level 的技能探索工业级 " 百宝袋 " 增强基线：Dr.BoT

结合业界现有的多种 agentic RL 训练技巧（bag-of-tricks），研究团队给出了组合的新基线Dr.BoT：

七剑合璧：移除 KL、去长度归一化、去标准差归一化、clip-higher、超长及空洞回复过滤、高方差组过滤。

兼容 GRPO/GiGPO 等 backbone 方法，零成本接入 SPEAR。

△SPEAR 接入已有训练算法（GRPO/GiGPO）时的数据流向算法通吃：文本、代码、视觉全能打

在聚焦家居场景下复杂指令理解与分步操作能力的 ALFWorld 家务模拟任务中，接入 SPEAR 算法的模型任务成功率达 88.9%，创下该任务当前最优水平。

在网页环境导航、商品筛选与决策执行能力的 WebShop 网页购物测评里，模型能模拟用户完成从浏览商品到下单的全流程，1.5B 模型成功率从 56.8% 飙升至 77.5%，提升 20.7%，训练时间仅增加 5%。

做到了真正的大提升小成本。

△SPEAR 在 ALFWorld 与 WebShop 上的表现

在 AIME24、AIME25 奥赛数学任务，模型在代码解释器辅助模式下，分别取得 71.0%、61.0% 的结题正确率，为该模式下最优结果。

△SPEAR 在 AIME24/AIME25 上的表现

而在测试视觉场景分析与空间路径规划能力的 Sokoban 视觉推箱子任务中，模型不仅取得 86.7% 的成功率，还较此前公开的最佳性能提升 19.6%。

△SPEAR 在 Sokoban 小游戏上的表现

下图展示了智能体在训练初期 " 无目的探索 " 状态（a）和训练后期能熟练掌握推箱子策略（b）的对比。

△VLM 驱动的智能体成功学会推箱子策略

无论纯文本工具调用场景还是视觉 - 语言混合的游戏任务，SPEAR 均能做到即插即用。

SPEAR 算法框架基于开源社区贡献的 vLLM +VeRL，1.5B 模型 1 小时上手，32B 模型一周出模，让智能体 " 自学成才 "。

目前，SPEAR 代码与模型已上架 GitHub&HuggingFace，感兴趣的朋友可以体验一把～

论文地址：https://arxiv.org/abs/2509.22601

代码：https://github.com/TencentYoutuResearch/SPEAR

模型：https://huggingface.co/collections/yolay/spear-68da1c8b75098b1868db59c8

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签