小模型用不好Skill？新范式让模型学会Skill的底层逻辑，3B模型推理token省5倍，性能反超

在小说阅读器读本章

去阅读

3B、7B 小模型如何成为智能体专家？

浙江大学联合美团龙猫团队、清华大学推出全新研究成果——SKILL0，并提出技能内化（Skill Internalization）——小模型真正需要的，或许不是推理时的 " 外挂技能 "，而是将技能内化为本能。

这一思路的灵感来自人类的学习方式：人类学习总是从 " 看着说明书操作 " 逐渐过渡到 " 凭肌肉记忆自主执行 "。

为了实现这一过渡，SKILL0 在模型训练过程中引入两项关键机制：上下文强化学习（In-Context Reinforcement Learning）和课程学习（Curriculum Learning），通过逐步撤掉技能参考，让模型把过程性知识内化到参数里，实现零样本直接上手。

" 技能增强 " 的局限性

从 Claude 到 OpenClaw，Skills 作为结构化的过程知识和可执行资源的集合，已成为增强大模型智能体能力的重要方法，在智能体运行时为其提供相关技能的在线匹配与调用支持。

然而，论文指出这种推理时 " 技能增强 " 的范式并不适用于小模型，主要有以下三个原因：

1. 检索噪声致命：可能引入无关或误导性指导，污染有限的上下文，极度依赖外部检索质量。

2. Token 开销爆炸：技能一旦变多，随着智能体多轮问答中会导致 token 累积。

3. 缺乏深度理解：最关键的是，模型根本没学会技能，只是在照本宣科。推理的时候一撤技能，模型直接打回原形。

△ 技能增强（左）vs 技能内化（右）。传统方案每次推理都要检索技能文档；SKILL0 在训练时用技能，推理时完全自主。从 " 技能增强 " 到 " 技能内化 "

SKILL0 的核心逻辑，完全复刻了人类学技能的完整过程：从照着说明书做，到慢慢熟练，最后不用想就能自主完成。它的核心创新，拆解成三个关键点：

△ 图 2：SKILL0 框架全景。a：相关性驱动的技能分组；b：带技能的 Agent 训练循环；c：训练过程中的动态课程。第一步：建立技能脚手架

训练开始前，先准备好一个层级化的 SkillBank。分两层：

通用技能：跨任务的策略原则，比如 " 先探索再行动 "

任务特定技能：某个领域的专门知识，比如 " 搜索任务中怎么查实体属性 "

每个 markdown 文件按照相关性分类，相当于 " 参考书 "，方便模型在训练阶段按照 " 参考书 " 的标题进行衡量和筛选，为后面的 " 课程学习 " 做好准备。

第二步：上下文强化学习：让模型真学会，不是假看懂

强化学习（RL），就是让 AI 通过试错，在环境里学会完成任务的方法。之前的方案，要么全程不给技能，模型像无头苍蝇一样乱试，根本学不会复杂任务；要么全程给技能，模型只会照着念，永远形成不了自己的能力。

SKILL0 做了一个巧妙的设计：训练的时候，给模型完整的技能上下文；但推理评估的时候，把所有技能全拿走，即上下文强化学习。

这里对上下文做了特殊处理：技能和历史交互不是直接用文本塞进 prompt，而是渲染成一张图片，用视觉编码器压缩。文本 token 开销太大，渲染成图片后，语义信息用颜色编码。视觉编码器一张图就能压缩掉大量文本，同时保留结构信息。

SKILL0 收到的环境任务奖励后，同时计算了自压缩的奖励，共同成为组内优势进行参数更新：

第三步：动态课程学习

训练分 Ns 个阶段，技能预算线性衰减。拿 ALFWorld 举例，6 个技能文件，3 个阶段，预算序列是 [ 6, 3, 0 ] ——第一阶段用最多 6 个，第二阶段砍到最多 3 个，第三阶段一个不给。

但不是随便筛选，也不是预先设定筛选顺序。每个阶段都有一套 Filter → Rank → Select 的在线筛选机制：

1. 先评估帮助度。 每隔 10 步，对每个技能文件做一次对比测试：有这个技能时准确率多少，没有时多少。差值就是这个技能的 " 帮助度 "。

2. 再过滤排序。 只保留帮助度大于 0 的技能（确实还有用的），按帮助度从高到低排。

3. 最后按预算选取。在不超过当前预算的前提下，保留排名前列的技能文件。

论文的 Figure 6 展示了技能帮助度的变化曲线：

可以发现这套机制带来了一个有意思的训练现象：

早期帮助度低——模型还不会利用技能

中期帮助度上升——模型学会了利用技能

后期帮助度回落——模型已经内化了技能知识，不再需要外部提示

论文还证明了为什么用线性衰减而不是其他策略。附录里的理论分析显示，线性衰减确保每两个阶段之间的分布变化有上界，避免 PPO 训练时重要性采样比率爆炸。

实验数据

在 ALFWorld 任务上：3B 模型的 SKILL0，平均成功率87.9%，比标准 RL 基线 AgentOCR 直接高了9.7%，甚至比全程带技能的 SkillRL（82.4%）还要强。

Search-QA 任务：同样 3B 模型，平均分40.8%，比 AgentOCR 高了6.6%，和带技能的 SkillRL 打平甚至反超。

7B 模型效果直接碾压闭源大模型：在文章附录里的 ALFWorld 任务结果中，SKILL0 零技能推理做到了 89.8% 的成功率，远超 GPT-4o（48.0%）和 Gemini-2.5-Pro（60.3%）。

除了出色的效果，还有它极致的 token 效率。

3B 模型的 SKILL0，每步推理的上下文 token 开销在 ALFWorld 任务仅0.38k，Search-QA 任务仅0.18k，比 SkillRL 省了 5 倍还多。

训练曲线如下：

训练初期，带技能的模型效果涨得更快，不带技能的效果差强人意；但随着训练推进，不带技能的效果慢慢追了上来，最后甚至反超。这就是实打实的技能内化——模型真的把技能刻进了参数里，不是临时抱佛脚。

还有一组消融实验的数字特别说明问题。如果训练全程都给满技能 [ 6, 6, 6 ] ，推理时一拿掉，性能暴跌 12.3 个点。但 SKILL0 的渐进课程 [ 6, 3, 0 ] 呢？推理时拿掉技能后，性能反而提升了 1.6 个点。

如果把动态课程的 Filter 去掉（不过滤，直接取前 M 个），性能掉 2.7%。如果连 Rank 也去掉（随机选技能），直接暴跌到 62.9%，比完整的 SKILL0 低了 13.7%。

总结

当前 Agent 生态的大部分努力，都花在了 " 更好的检索、更好的技能库、更好的注入方式 " 上，SKILL0 提出了一个不同方向：让技能内化入模型参数。这样参数量受限的小模型，或许就能靠端到端训练成为能够胜任复杂任务的领域专家。

当然，技能内化不会取代所有运行时增强。需要实时更新的知识（比如最新 API 变更）还是得靠检索。但对于稳定的、可复用的行为模式，从 " 外部工具 " 到 " 内在能力 " 的转变，可能才是 Agent 真正走向自主的关键一步。

论文标题：

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

论文地址：

https://arxiv.org/abs/2604.02268

项目代码：

https://github.com/ZJU-REAL/SkillZero

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签