自己给自己造工具,字节跳动的 Agent 超过了人类专家写的技能

（来源：至顶 AI 实验室）

2026 年 5 月 26 日，字节跳动 ByteBrain 团队在 arXiv 上发布了一篇题为《MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation》的论文。论文第一作者林华威来自美国罗切斯特理工大学，实习期间在字节完成这项研究；通讯作者张铁英来自字节跳动。这支团队做的事情，用一句话概括：让 AI Agent 能自己给自己造工具，越用越聪明。

这个时间节点本身有意思。就在同一周，开源 Agent 框架 DeerFlow 正在 GitHub Trending 持续发酵，字节旗下的 Doubao 2.0 已经全面转向 "Agent 时代 "，Anthropic 的 Agent Skills 开放标准也刚刚推出不久。整个行业正在从 " 模型够不够聪明 " 的讨论，快速切换到 "Agent 会不会用工具、能不能积累经验 " 这条新战线。MUSE-Autoskill 这篇论文，恰好站在这条战线最前沿。

但它提出的核心问题，其实很朴素：现有 Agent 造出来的技能，都是 " 用完就扔 " 的——没有记忆，没有测试，没有改进。能不能换一种思路，把技能当成有生命周期的资产来管理？

先说说 " 技能 " 是什么

理解 MUSE-Autoskill，必须先说清楚 " 技能（Skill）" 这个核心概念。

在这个框架里，技能不是 Agent 大脑里的知识，而是一个放在文件系统里的目录，遵循 Anthropic 制定的 Agent Skills 开放标准。它的结构很简单：必须有一个 SKILL.md 文件，定义技能的名称、描述、输入输出接口；可以有 scripts/ 存放可执行代码、resources/ 存放辅助数据、tests/ 存放单元测试。

打个比方：如果把 Agent 比作一位厨师，技能就是他的菜谱本。SKILL.md 是菜谱的封面和步骤说明，scripts/ 是预处理好的半成品食材，tests/ 是每次做完这道菜之后用来验证味道是否达标的标准。

为什么要做成这种格式？因为它是可移植的。一位厨师学会的菜谱，可以直接给另一位厨师用，不需要重新解释原理。这正是 MUSE-Autoskill 后来做到 " 跨 Agent 技能迁移 " 的基础。

技能这个思路并不新鲜。Minecraft 里的 Voyager、通用 Agent 框架里的 AutoSkill、EvoSkill，都在往这个方向走。但论文指出了现有方案普遍存在的四个缺口：

创建和使用脱节。技能是在 Agent 运行上下文之外预先生成的，生成者并不了解 Agent 实际跑任务时遇到的具体问题。

没有技能级别的记忆。 Agent 用过一个技能之后，学到的教训会消失——下次碰到同样的技能，还是从零开始。

技能不经测试就上线。没有单元测试，没有验证机制，一个错的技能和一个对的技能在库里地位相同。

上下文管理差。长任务积累的对话历史会把模型的 token 窗口撑爆，导致关键早期信息丢失。

这四个问题叠加在一起，结果就是：Agent 造技能越多，技能库越乱，用起来越不可靠。

统一生命周期：从 " 用完就扔 " 到 " 长期资产 "

MUSE-Autoskill 的核心贡献，是把技能的管理抽象成一个五阶段的统一生命周期：创建、记忆、管理、评估、改进。

每一个阶段在系统里都有具体机制落地：

创建阶段，Agent 在任务执行的 ReAct 循环内部，通过内置的 skill_create 工具实时生成技能，同时生成 SKILL.md、scripts/、tests/ 等完整包。技能不是离线批量生产的，而是 " 按需现场造 "。

评估阶段，技能创建完之后不能直接入库——系统会先在沙箱里跑 tests/ 目录里的单元测试。只有所有测试通过，技能才能注册进技能银行（Skill Bank）。测试失败，Agent 检查错误，调用 update_skill 修补代码，循环直到通过为止。这是一个 " 造完即测，测完才存 " 的硬门槛。

记忆阶段，这里有一个论文最有创意的设计：每个技能旁边都有一个 .memory.md 文件，记录该技能在历次任务中积累的经验——已知的失败场景、输入格式的坑、性能上的注意事项。下次加载同一个技能时，这份经验会一并注入上下文，Agent 不需要重新踩同样的坑。

管理阶段，每次任务开始时，系统将技能库的目录（只含名称和描述）注入系统提示，Agent 自行决定用哪个技能。对于冗余技能，系统支持合并；对于长期失败或未使用的技能，系统会将其删除。技能库保持精简可用。

改进阶段，当技能在执行过程中产出错误结果时，Agent 直接 patch 代码，再次验证，持续迭代。

五个阶段合在一起，把技能从 " 一次性耗材 " 变成了 " 可维护、可测试、可迁移的知识资产 "。

上下文不够用怎么办

长任务还有一个绕不过去的工程难题：对话历史越积越长，模型的 token 窗口撑不住。

MUSE-Autoskill 设计了一套两级自适应压缩机制，思路借鉴了操作系统的内存管理。

整个对话历史被组织成一个有向无环图（DAG），每个节点是一轮（Plan/Action/Observation 三元组）。当总 token 量接近阈值，触发压缩：

一级压缩（L1）：扫描中间节点，找到单独超出大小限制的节点，原地替换成摘要。首尾各保留若干轮不压缩——最早的几轮包含任务背景，最近的几轮包含当前状态，都不能动。

二级压缩（L2）：如果 L1 之后还超预算，说明没有单节点特别大，而是中间积累了太多轮次，此时把中间一段合并成一个合成节点。

关键设计：压缩操作只影响活跃链，原始历史通过不可变的指针链完整保留，支持跨会话恢复和事后回放。压缩不是丢信息，是换一种更省空间的表示方式。

数字说话：自生成技能超过了人类专家写的技能

论文在 SkillsBench 上做了评测，这是一个包含 51 个真实任务的基准，每个任务跑在独立的 Docker 容器里，由自动验证器打分。三个参与对比的 Agent（MUSE-Autoskill、Codex、Hermes）都用 GPT-5.5 作为底座——模型相同，比的是 Agent 系统设计的差异。

结果最重要的几个数字：

带人类专家写的技能时，MUSE-Autoskill 准确率达到 68.40%，高于 Codex 的 67.28% 和 Hermes 的 61.21%。

更值得关注的是第二组数据：MUSE-Autoskill 从自己的成功轨迹中生成技能（35 个任务成功生成），再用这些自生成技能重新跑同样的任务，准确率达到 87.94%，超过了人类专家写的技能所能达到的上限（68.40%）。

为什么自己造的技能反而更好？论文给出的解释很直接：从真实成功轨迹里蒸馏出来的技能，包含了针对这个具体任务的程序性知识——输入输出格式、工具选择、失败处理逻辑——而人类写的通用技能往往只写了大方向，把细节留给 Agent 自己推理。

还有一组数据证明了技能的可移植性：把 MUSE-Autoskill 生成的技能原封不动注入另一个 Agent（Hermes），Hermes 的准确率从 47.89% 提升到 58.40%，抹平了和 "Hermes + 人类技能 " 之间 79% 的差距。两个 Agent 架构不同，提示不同，但技能本身作为可读文档和脚本，跨系统传递没有损耗。

效率反直觉：技能越详细，Token 反而越省

MUSE 生成的技能平均有 326 行，是人类专家写的技能（146 行）的 2.2 倍。直觉上，技能越长，加载进上下文消耗的 Token 越多，成本越高。

实际数据完全相反。

在 35 个有自生成技能的任务上：

MUSE-Autoskill 使用人类技能时，中位 Token 用量 615K，耗时 656 秒

使用自生成技能时，中位 Token 用量降到 493K（-20%），耗时降到 411 秒（-37%），轮次从 19 轮降到 15 轮

Hermes 使用相同的 MUSE 生成技能时，Token 用量从 186K 降到 97K（-48%），耗时从 369 秒降到 257 秒（-30%）。

机制是这样的：技能里详细的程序性说明，替代了 Agent 在任务执行过程中大量的探索性推理。用一个更长的 " 菜谱 " 换掉了更多轮次的 " 边做边想 "，总账反而更划算。生成一个技能的一次性成本约为 383K Token 和 164 秒，但从第一次复用起就开始回本。

论文专门提了一个有意思的细节：MUSE 是 51 个 Agent 里 Token 消耗最重的（515-577K），但因为自适应压缩控制了每轮的 prompt 规模，它的延迟尾部（P90）反而比 Codex 短。深循环不一定慢，关键在于每轮的成本是否可控。

一个失败案例和它说明的问题

论文没有回避回归案例。hvac-control 任务要求用 PI 控制器驱动一个热力学模拟器，MUSE 的准确率从基线的 80% 跌到了使用自生成技能后的 20%。

原因在于：蒸馏技能所用的那条成功轨迹，包含了针对特定随机噪声分布的校准逻辑。这套校准参数在其他随机种子下不稳定，偶尔产生超出验证器容忍范围的增益值。技能把一次碰巧成功的策略固化下来了，而不是提炼出通用的控制原理。

这个问题揭示了技能生成的一个根本局限：单条轨迹蒸馏，很容易把任务特异性的细节当成通用知识编码进去。论文提出的改进方向是从多条轨迹（包括部分失败的轨迹）中综合提炼，而不是等一条完美轨迹出现再蒸馏。

技能生命周期管理的产业化走向

论文专门用一节篇幅描述了已在生产中落地的三个系统，给出了这套思路的产业走向：

SkillMarket：对终端用户开放技能创建流水线，把成功轨迹直接蒸馏成可分享的技能包，无需人工编写。计划加入技能版本管理和持续更新机制。

ArkClaw：接入技能检索能力，让 Agent 在造新技能之前先查查已有的。还计划支持把整个 Agent 当成一个可调用的子 Agent，一个技能可以封装完整的多 Agent 协作行为。

SkillHub：把整个技能生命周期（创建、评估、记忆、管理、改进）做成托管服务，团队共享技能库，技能改进自动传播给所有依赖它的 Agent 和产品。

这三个系统合在一起，指向同一个方向：技能不只是单个 Agent 的私有工具，而是团队级别、产品级别的共享知识基础设施。一个技能的改进，可以同时惠及所有使用它的下游系统。

https://arxiv.org/pdf/2605.27366

宙世代

一起剪

相关标签