在人工智能的广阔世界里,我们早已习惯了 LLM 智能体在各种任务中大放异彩。但有没有那么一瞬间,你觉得这些 AI" 牛马 " 还是缺了点什么?
没错,它们缺少的是我们人类最宝贵的职场技能:经验的积累和持续的自我进化。
想象一下:你入职第一天,对公司一无所知,只能依靠在学校中学习到的知识,工作中犯了错也无法吸取教训,第二次遇到同样的问题,你还得从头再来。听起来是不是很像一个会失忆的工具人?这就是现有 LLM 智能体在处理现实世界" 长程任务 "(Long-Horizon Tasks)时面临的巨大挑战。
为了彻底解决这一 " 职场尴尬 ",来自上海人工智能实验室及合作机构的研究者们,提出了一套全新的智能体框架——MUSE(Memory-Utilizing and Self-Evolving,记忆利用和自我演化),让智能体在 " 职场 " 中不断进化,成为真正的 " 职场新星 ",实现 " 干中学 "(Learning on the Job)。
下面的视频展现了一个模拟人类项目经理对公司项目 issue 进行管理的例子,可以看到 MUSE 在包括 GitLab,Plane 在内的多个软件平台来回跳转操作,最终在没有任何人类介入的情况下完成了这个任务。
目前 , MUSE 的论文与代码已经完成了开源(链接见文末)。
MUSE:三步走,打造 AI" 职场新星 "
MUSE 的核心理念,是为 LLM 智能体构建一个 " 经验驱动、自我演化 " 的闭环系统,用 "测试时学习" 范式一次性解决 " 静态参数 + 无法进化 + 长程任务 " 三大痛点。
这个系统围绕一个分层记忆模块(Hierarchical Memory Module)展开。简单来说,MUSE 让智能体像人类一样:先做、再反思、然后进化。
△MUSE 框架第一步:告别 " 健忘症 " ——分层记忆模块(Memory Module)
传统 LLM 智能体之所以被称为 " 失忆的执行者 ",就是因为它们没有长期记忆,无法保留和应用历史知识。而 MUSE 框架为智能体装上了 " 大脑中枢 " ——一个能组织不同层级经验的记忆模块。这些经验包括:
Strategic Memory:保存 " 困境 - 策略 " 对,全局加载到系统提示,指导宏观行为范式。
Procedural Memory:按 " 应用→ SOP 索引→详细步骤 " 三级组织,成功子任务轨迹实时沉淀为自然语言标准作业程序;轻量级索引常驻上下文,详情按需检索。
Tool Memory:静态描述 + 动态指令双组件,为每个基础工具提供 " 肌肉记忆 ",用后立即更新。
MUSE 能够利用这些经验来规划和执行跨应用的复杂任务,从而解决现有智能体在动态规划、经验积累和持续学习方面的难题。
第二步:" 事后诸葛亮 " ——自主反思(Self-Reflection)
这是 MUSE 最 " 类人 " 的机制。在每完成一个子任务之后,MUSE 的智能体不会立即进行下一个任务,而是会自主地对它的执行轨迹进行反思。
这种反思机制,就像是 AI 在给自己做 " 工作总结与复盘 "。
它会评估子任务的执行结果: 成功了还是失败了?
它会把原始的执行轨迹(Raw Trajectory)自动转化为结构化的经验(Structured Experience)。如果成功,就会提炼出高效的操作序列作为新的 SOP(标准操作程序)。
它甚至拥有 " 第二次机会 " 机制: 如果第一次尝试失败,它有一次重试机会(无需检索,鼓励探索),如果再次失败,才会触发重新规划。
第三步:超越 " 静态参数 " ——持续自我演化(Self-Evolution)
通过持续的 " 规划 → 执行 → 反思 → 提取经验 " 的四步闭环循环,MUSE 实现了真正的自我演化。
这些积累的经验会被整合回记忆模块,不断优化智能体未来的规划和执行策略。这意味着:MUSE 的性能会随着它自主积累的经验越来越多而持续提高。
实验结果:智能体的 " 职场 " 表现
MUSE 框架在一系列实验中展示了令人振奋的能力:
SOTA 表现和降维打击
在专为长期生产力任务设计的基准测试TAC (TheAgentCompany) 上,MUSE 取得了显著的 SOTA 性能。最令人惊讶的是,MUSE 仅使用轻量级的 Gemini-2.5 Flash 模型,就击败了使用更大模型(Claude Sonnet 4)的现有 SOTA 方法, 在 TAC 的指标上首次突破 50% 大关,达到 51.78%。这证明了 " 经验驱动的自我演化机制 " 具有良好的前景。
持续进化
面对重复任务,智能体孰能生巧,一次比一次做得更好,再也不是职场小白啦。
强大的泛化能力
MUSE 积累的经验具备强大的泛化特性,即使在全新的、从未见过的任务上,它也能实现零样本改进(Zero-shot Improvement)。
可迁移性
将闭源模型收集到的经验迁移到开源模型 DeepSeek-V3 上,可以帮助 DeepSeek-V3 在一众开源模型中成为 SOTA。
效果展示:智能体的工作日常
智能体创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程:
智能体跨越多个平台(rocketchat,gitlab 等)依次与三位同事沟通,执行了超过 100 个步骤,最终圆满完成复杂任务:
未来展望:AI 的 " 职场 " 潜力
MUSE 框架的出现,标志着 AI 智能体已经迈入了 "经验驱动的终身学习" 新阶段。它超越了传统的 " 测试时静态 " 模式,展示了 AI 在长程任务中的巨大潜力,为实现更具适应性和智能化的 AI"职场打工人" 奠定了坚实基础。展望未来,有什么办法能让 AI 打工人实现进一步的提升呢?
1. 告别 " 失忆 ",优化记忆
强化检索与整合: 尽管 MUSE 能够自动将原始轨迹转化为结构化、可重复使用的知识(SOP)并整合到记忆模块中,但如何更高效地检索(Retrieval)相关经验,并确保新旧知识的无缝整合(Integration),是下一步优化的关键。
长效性和持续性: 如何确保记忆模块能够实现真正的终身、持续学习,防止旧知识被不恰当地遗忘或覆盖,从而在海量经验中保持性能的稳定提升,将是需要持续深耕的方向。
2. 丰富经验来源,打造多维度的 " 职场导师 "
引入人类智慧: 展望未来的研究方向,可以将人类反馈(Human Feedback)和人类示范(Demonstrations)集成到记忆系统中。就像职场新人通过观看导师操作(示范)和听取指导(反馈)来快速成长一样,这将大大加速 AI 智能体的学习效率和能力边界。
3. 完善评估体系,助力 AI 职场 " 公平竞争 "
长期评估标准: 需要创建更全面的、专门用于长期任务评估的基准。
多维度能力考察: 评估不仅要关注任务的成功率,还要衡量智能体的记忆保留能力、技能迁移能力以及主动决策能力,确保其能够像一个真正的终身学习者一样持续发展。
Arxiv:
https://arxiv.org/abs/2510.08002
GitHub:
https://github.com/KnowledgeXLab/MUSE
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦