阿里巴巴AMAP研究院提出“角色智能体”

这项由阿里巴巴 AMAP 与中国科学技术大学联合开展的研究，于 2026 年 6 月发表在 arXiv 预印本平台，论文编号为 arXiv:2606.10917v1。对论文感兴趣的读者可以通过该编号在 arXiv 上找到完整内容。

** 一位学生，同时也是一位老师 **

在日常学习中，有一种效果被反复证明极其有效——当你尝试向别人解释一件事时，你对这件事的理解会比单纯自己读书深刻得多。心理学家把这叫做 " 费曼学习法 "：讲给别人听，是检验自己是否真正理解的最好方式。现在，这群来自阿里巴巴和中科大的工程师与研究者，把这个道理用到了人工智能身上，创造出了一个名叫 "Role-Agent（角色智能体）" 的框架，让同一个 AI 既扮演 " 解题的学生 "，也扮演 " 出题的老师 "，在这种角色切换中不断自我提升。

要理解这项研究的意义，先得明白现在的 AI" 学习 " 面临什么困境。

当一个 AI 智能体被放进某个任务环境里，比如让它在模拟家居场景中完成 " 把一块干净的肥皂放到卫生纸架上 " 这类任务，它需要一步一步地做决定：先去哪个柜子找肥皂？找到肥皂后要先洗干净吗？然后去哪里放？整个过程就像一个人在陌生的家里按照主人的要求找东西、做事情。每做完一步，环境会给出反馈，告诉它 " 成功了 " 还是 " 失败了 "。AI 根据这些反馈调整自己的策略，慢慢变得更聪明。

但问题在于，这种学习方式效率很低，原因有两个。第一，环境给出的反馈太稀疏，往往只告诉 AI" 最终有没有完成任务 "，却不告诉它 " 在哪一步出了问题、为什么出问题 "，就像老师批改试卷只写 " 不及格 " 却不指出错在哪道题一样。第二，任务的题库是固定的，AI 总是在同样的一批题目上练习，碰到自己不擅长的类型也不会被特别加强训练，久而久之短板始终补不上。

有人尝试过建造 " 合成环境 " 来解决这个问题——专门搭一个能根据 AI 表现动态调整的虚拟训练场。但这样做成本极高，需要额外的模型、额外的工程师、额外的计算资源，整个系统变得极为复杂。

Role-Agent 提出了一个更优雅的解法：既然我们已经有一个足够强大的大语言模型，为什么不让它同时扮演两个角色？作为 " 学生 "，它负责完成任务、与环境交互；作为 " 老师 "，它负责审视自己的失败、找出问题所在、调整练习计划。这两个角色在同一个模型里共存，形成一个自给自足的闭环进化系统。

** 二、这个框架究竟是怎么运转的？两个关键设计 **

Role-Agent 的核心由两个模块构成，研究团队分别给它们起了颇有诗意的名字：World-In-Agent（世界住在智能体里，简称 WIA）和 Agent-In-World（智能体住在世界里，简称 AIW）。

先来说说第一个模块 WIA，也就是 " 让 AI 预测自己行动的后果 "。

回到那个在家里做任务的例子。普通的 AI 在做每一个决定时，是基于当前看到的状态来选择下一步行动，但并不会主动思考 " 我这样做了之后，房间会变成什么样 "。WIA 的创新在于，它要求 AI 在每次做出行动之后，额外生成一段预测：接下来的一步、两步，环境状态会是什么样？

打个具体的比方：一个棋手在落子之前，不仅要决定下哪里，还要在脑海中预演 " 我下了这一步，对手可能怎么应对，棋局会变成什么局面 "。这种对未来局势的预判能力，正是高手和普通棋手的核心区别。WIA 就是在给 AI 训练这种 " 往前看 " 的能力。

AI 做出行动后，研究者会把 AI 的预测状态和真实发生的状态做对比，看预测有多准确。这个准确度被转化为一种额外的 " 预测奖励 " ——预测越准，说明 AI 对这个环境理解得越深，应该给予更多的正向激励；预测越差，说明 AI 是在靠运气做对了事，这种侥幸成功不应该得到太多鼓励。

这里有一个精妙的设计细节值得关注：这个预测奖励不是简单地叠加在原有奖励上，而是以乘法的方式与原有的任务奖励结合。具体来说，最终的奖励等于任务奖励乘以（1 加上预测奖励）。这样设计的逻辑非常清晰：如果 AI 完成了任务（有任务奖励），而且对环境理解准确（预测奖励高），那最终激励就被放大了；如果 AI 侥幸完成了任务但对环境完全没搞懂（预测奖励低），激励就被压缩了；更重要的是，如果 AI 根本没完成任务（任务奖励为零），不管预测有多准，乘以零都等于零，不会让失败的轨迹因为 " 猜对了几个状态 " 就得到奖励。

除了预测奖励，WIA 还引入了另一种叫做 " 状态分组优势 " 的技术。研究者注意到，在训练过程中，AI 会多次经历完全相同的环境状态。传统方法会把这些情况混在一起评估，而研究团队选择把发生在同一个状态下的所有行动归为一组，单独比较 " 在这个状态下，哪种行动更好 "。这就像老师在评分时，不是把所有学生的成绩放在一起排名，而是按照 " 面对同一道题的同学 " 来比较谁的解法更优——这样得到的评价更加公平、更有针对性。最终，每个行动的评分是状态层面的相对优劣（乘以系数 α）再加上整条轨迹的整体优劣，两者结合给出最终信号。

接下来看第二个模块 AIW，也就是 " 让 AI 自己分析自己的失败 "。

每次 AI 搞砸了一个任务，研究团队不会直接丢弃这次失败的经历。他们会把整条失败的轨迹——包括任务描述、每一步的观察和行动——喂给同一个大语言模型，让它以 " 分析师 " 的身份审视这次失败：这次失败的根本原因是什么？是某种固定的错误模式吗？在哪一步事情开始走向不可挽回？如果要给未来的 AI 一条经验，应该说什么？

模型会输出一份结构化的 " 失败诊断报告 "，其中包括失败类型（比如 " 实体混淆 " ——拿错了东西、" 前提条件缺失 " ——没做清洁就直接放置），失败原因的细节描述，以及一段 " 检索查询词 " ——这个查询词会在后续步骤中用于寻找相似的失败案例。

所有这些失败诊断都被存进一个离线的 " 失败记忆库 "。每过一段时间，系统会把当前正在犯的错误模式和记忆库里的历史案例做对比，找出 " 有着相似失败根源 " 的历史任务，然后把这些任务重新加入到当前的训练队列里，提高它们被选中练习的概率。

这个设计的精妙之处在于，它不是简单地 " 把失败的任务多练几遍 "，而是通过理解失败的内在模式，把表面上看起来不一样、但本质上考察同一个薄弱点的任务串联起来集中攻克。就像一个学数学的学生发现自己总是在 " 分式化简 " 这类题上出错，那老师不仅会让他再做一遍原来那道题，还会找来所有考察同一知识点的不同题目让他训练，直到这个弱点被彻底克服。

在实际操作中，研究团队在 ALFWorld 这个家居任务测试集上识别出了 11 种独特的失败模式，涵盖了诸如 " 重复探索 "、" 目标位置判断错误 "、" 放错了容器 " 等多种类型。整个失败记忆库的存储和检索成本极低，对整体运行速度几乎没有影响。

** 三、在三类任务上的实际考验，成绩如何？**

研究团队在三种类型的任务上测试了 Role-Agent，每种任务都代表着 AI 智能体在现实世界中需要应对的不同挑战。

第一类是 ALFWorld，一个模拟家居环境的文本交互平台，AI 需要用文字命令在虚拟房间里完成各种家务目标，比如 " 把一块加热过的苹果放到桌上 "、" 在台灯下检查闹钟 " 等，每个任务都需要多步骤的导航、物品拾取和状态变换。第二类是 WebShop，一个模拟电商平台，包含真实世界里的超过 118 万件商品，AI 需要通过搜索和点击来找到符合用户需求的商品。第三类是搜索增强问答，包含需要单跳（一步就能回答）和多跳（需要综合多个信息源才能回答）的各类知识问答，AI 需要决定何时搜索、搜什么、何时停止搜索并给出答案。

实验中，研究团队使用了阿里巴巴的 Qwen2.5 系列模型作为基础模型，分别测试了 1.5 亿参数、30 亿参数和 70 亿参数三种规格。对比的基准方法涵盖了闭源商业模型（GPT-4o 和 Gemini-2.5-Pro）、提示工程方法（ReAct 和 Reflexion），以及目前表现最强的强化学习训练方法（PPO、RLOO、GRPO 以及此前最优的 GiGPO）。

在 ALFWorld 上，Role-Agent 配合最小的 1.5B 模型就达到了 90.9% 的平均成功率，比此前最强基准 GiGPO 的 86.7% 高出 4.2 个百分点。配合 7B 模型，成功率进一步提升至 93.8%，相比 GiGPO 的 90.8% 提升了 3 个百分点。更值得关注的是在复杂子任务上的差距：需要稳定记忆和多步规划的 " 在台灯下检查物体 " 任务，Role-Agent 比 GiGPO 高出整整 11 个百分点；需要拿取两件物品并摆放的组合任务上，Role-Agent 高出 13.6 个百分点。这说明智能体在需要连贯推理的长链任务上，从 " 双角色共进化 " 中获益最为明显。

在 WebShop 上，使用 1.5B 模型的 Role-Agent 成功率达到 71.9%，相比 GiGPO 的 65.0% 提升了 6.9 个百分点。即便与直接使用 GPT-4o 提示的方法相比，Role-Agent 也高出了大约 48 个百分点，显示出强化学习训练相对于提示工程的显著优势。

在搜索问答任务中，使用 3B 模型的 Role-Agent 在 7 个数据集上的平均准确率达到 45.8%，比 GiGPO 的 42.1% 高出 3.7 个百分点。提升在多跳问答上更为突出：在需要综合多个维基百科页面信息的 2WikiMultiHopQA 数据集上提升了 8.2 个百分点，在 MuSiQue 数据集上提升了 5.2 个百分点。这与理论预期完全吻合：角色共进化让智能体学会了更有计划地进行多步检索和信息整合。有一个细节是研究者坦率承认的：在单跳的 NQ（自然问题）数据集上，Role-Agent 比 GiGPO 稍低了一点点。研究团队认为这恰恰说明 Role-Agent 没有过度适应训练集，而是朝着更好的泛化能力发展——牺牲了一点在最熟悉的领域上的微小优势，换来了在陌生领域上的大幅提升。

** 四、拆开来看：每个零件是否真的有用？**

为了验证两个模块各自的价值，研究团队做了一组拆解实验，分别去掉 AIW 模块或去掉预测奖励机制，看性能会有什么变化。

去掉 AIW 模块（也就是不再分析失败、不再调整训练数据分布），在 ALFWorld 上成功率从 90.9% 下降到 87.5%，在 WebShop 上从 71.9% 下降到 66.9%。去掉预测奖励机制，在 ALFWorld 上下降到 88.0%，在 WebShop 上下降到 68.3%。两个组件都有各自独特的贡献，而且两个被拆解后的版本依然都超过了 GiGPO（86.7%/65.0%），说明即便只用其中一半，也已经比之前最好的方法更强了。两个模块相互补充、缺一不可。

研究团队还深入分析了整个训练过程中失败模式库的演变情况。在训练的早期阶段，记忆库增长非常迅速，前 15 步就积累了 996 条记录；随着训练推进，增速逐渐放缓，到第 150 步时总量稳定在 3931 条。这个现象说明，早期 AI 频繁犯错，失败模式库快速建立；后期 AI 越来越熟练，新的失败类型越来越少出现，库的增长自然趋于平稳。在所有失败类型中，" 重复探索 "、" 目标位置错误 " 和 " 放错容器 " 占据了最大份额，说明这些是当前阶段 AI 的主要短板所在。

超参数方面，研究者测试了两个关键参数的敏感性。关于轨迹级优势和状态级优势之间的权重系数 α，取值 1.0 时效果最好，过小会削弱整体任务完成信号，过大则会稀释状态级的精细评价，就像调音师需要在各个频段之间保持精准平衡一样。关于预测步数 H（即 AI 在每一步需要预测多少步之后的状态），最佳取值是最大步数的 5%。把 H 设得太长，意味着 AI 需要在上下文里放入大量预测内容，这会占用宝贵的 " 工作记忆 "，让 AI 反而分不清轻重；而且预测太远的未来必然越来越不准确，最终变成无意义的猜测，甚至引发 " 通过假装预测准确来骗取奖励 " 的问题。

** 五、它快吗？额外开销有多大？**

一个自然的担忧是：让 AI 额外做预测和失败分析，会不会让整个系统慢到无法使用？

研究团队做了详细的时间拆分统计。在 ALFWorld 的每一步训练中，整体运行时间约为 519 秒。其中，滚动生成轨迹本身占了大约 176 秒，是最大的时间开销。Role-Agent 新增的部分包括：预测生成约 18.63 秒，预测奖励计算约 0.14 秒，AIW 失败分析约 8.92 秒。这三项加起来约 27.69 秒，只占总时间的 5.2% 左右。换句话说，Role-Agent 只付出了 5% 多一点的额外时间代价，换来了显著的性能提升，这个性价比相当可观。

从训练动态来看，Role-Agent 在训练初期有时会短暂落后于 GiGPO，甚至出现一定的波动，但随着失败记忆库逐渐充实、训练数据分布持续调整，它的成功率会稳步攀升，最终达到更高的性能上限，并且收敛速度反而更快。研究团队还发现了另一个有价值的现象：与 GiGPO 相比，Role-Agent 的训练时行为和推理时行为之间的差距更小。这种差距是强化学习训练中常见的 " 训练 - 推理不匹配 " 问题，差距越小说明训练越稳定，梯度估计的方差越低，整体学习效率越高。

** 六、这套思路的边界在哪里？**

研究团队对自己工作的局限性保持了坦诚。第一个问题涉及公平性：如果用一个比当前模型更强的冻结模型来专门做 AIW 的失败分析，分析质量会更高，但同时这引入了额外的外部知识，破坏了 " 与同等基准公平比较 " 的前提。第二个问题在于状态分组机制依赖一个相似度阈值（当前设为 0.9），这个值是从前人工作中沿用的，在不同类型的任务之间可能需要调整。第三个问题是整个框架目前只在纯文本环境里验证过，还没有延伸到涉及图像的多模态任务或实时具身机器人场景，在那些场景下，" 状态 " 往往是视觉图像而非文字描述，现有的文本匹配方法需要相应改造才能适用。

说到底，Role-Agent 做的这件事，可以用一句话来概括：同一个 AI，既当学生又当老师，在自问自答中越来越强。这背后的核心洞察非常朴素——真正的学习不仅仅是重复练习，还需要理解 " 为什么我错了 " 和 " 我下次该怎么避免 "。以往的 AI 训练往往停留在前者，而 Role-Agent 把后者也纳入了闭环。

对于普通用户来说，这类技术的进步意味着未来的 AI 助手在执行复杂任务时会更加可靠，比如让 AI 帮你在购物网站上找到最符合要求的商品、让 AI 在家居场景中按照你的指令完成多步骤操作，或者让 AI 通过多轮搜索帮你整理一个复杂问题的答案，犯同样错误的频率会显著降低。

更值得思考的是，这套框架提出了一种不需要构建额外模型或额外标注数据的自我进化路径。在 AI 能力不断增强的当下，如何让一个模型在与世界的互动中高效地发现并修补自己的弱点，是 AI 长期发展中的关键问题之一。Role-Agent 给出的这个答案——让同一个模型扮演多个角色、在角色切换中实现共同进化——或许会成为未来更复杂的自进化系统的一块重要基石。有兴趣深入探究技术细节的读者，可以前往 arXiv 通过编号 2606.10917 查阅完整论文，该研究的代码也已在 GitHub 的 AMAP-ML/roleagent 仓库开源。

Q1：Role-Agent 框架中的 WIA（World-In-Agent）模块是怎么工作的？

A：WIA 要求 AI 在每次做出行动后，额外预测接下来几步环境会变成什么样子。系统会把这些预测和实际发生的状态做对比，对比结果转化为 " 预测奖励 "，以乘法方式与任务奖励结合。预测越准，说明 AI 对环境理解越深，正向激励被放大；预测越差，激励被压缩，防止 AI 靠运气完成任务。

Q2：AIW（Agent-In-World）模块是如何帮助 AI 克服弱点的？

A：每次 AI 失败后，同一个模型会以 " 分析师 " 身份审视失败轨迹，输出包含失败类型、原因和检索词的诊断报告，存入失败记忆库。系统会定期把当前的错误模式与历史案例对比，把拥有相似失败根源的任务重新加入训练队列，让 AI 集中攻克同类弱点，而不仅仅是重复练习原来那道失败的题目。

Q3：Role-Agent 额外的预测和分析操作会不会让训练速度变慢很多？

A：实测结果显示，Role-Agent 新增的预测生成、奖励计算和失败分析三项操作合计只增加了约 27.7 秒，占总运行时间的 5.2% 左右。换句话说，只需额外付出约 5% 的时间代价，就能换来 ALFWorld 上超过 4 个百分点的成功率提升，性价比相当高。

作者声明：作品含 AI 生成内容

宙世代

一起剪

相关标签