量子位 17小时前
小模型用不好Skill?新范式让模型学会Skill的底层逻辑,3B模型推理token省5倍,性能反超
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

在小说阅读器读本章

去阅读

3B、7B 小模型如何成为智能体专家?

浙江大学联合美团龙猫团队、清华大学推出全新研究成果——SKILL0,并提出技能内化(Skill Internalization)——小模型真正需要的,或许不是推理时的 " 外挂技能 ",而是将技能内化为本能

这一思路的灵感来自人类的学习方式:人类学习总是从 " 看着说明书操作 " 逐渐过渡到 " 凭肌肉记忆自主执行 "。

为了实现这一过渡,SKILL0 在模型训练过程中引入两项关键机制:上下文强化学习(In-Context Reinforcement Learning)和课程学习(Curriculum Learning),通过逐步撤掉技能参考,让模型把过程性知识内化到参数里,实现零样本直接上手。

" 技能增强 " 的局限性

从 Claude 到 OpenClaw,Skills 作为结构化的过程知识和可执行资源的集合,已成为增强大模型智能体能力的重要方法,在智能体运行时为其提供相关技能的在线匹配与调用支持。

然而,论文指出这种推理时 " 技能增强 " 的范式并不适用于小模型,主要有以下三个原因:

1. 检索噪声致命:可能引入无关或误导性指导,污染有限的上下文,极度依赖外部检索质量。

2. Token 开销爆炸:技能一旦变多,随着智能体多轮问答中会导致 token 累积。

3. 缺乏深度理解:最关键的是,模型根本没学会技能,只是在照本宣科。推理的时候一撤技能,模型直接打回原形。

  技能增强(左)vs 技能内化(右)。传统方案每次推理都要检索技能文档;SKILL0 在训练时用技能,推理时完全自主。从 " 技能增强 " 到 " 技能内化 "

SKILL0 的核心逻辑,完全复刻了人类学技能的完整过程:从照着说明书做,到慢慢熟练,最后不用想就能自主完成。它的核心创新,拆解成三个关键点:

  图 2:SKILL0 框架全景。a:相关性驱动的技能分组;b:带技能的 Agent 训练循环;c:训练过程中的动态课程。第一步:建立技能脚手架

训练开始前,先准备好一个层级化的 SkillBank。分两层:

通用技能:跨任务的策略原则,比如 " 先探索再行动 "

任务特定技能:某个领域的专门知识,比如 " 搜索任务中怎么查实体属性 "

每个 markdown 文件按照相关性分类,相当于 " 参考书 ",方便模型在训练阶段按照 " 参考书 " 的标题进行衡量和筛选,为后面的 " 课程学习 " 做好准备。

第二步:上下文强化学习:让模型真学会,不是假看懂

强化学习(RL),就是让 AI 通过试错,在环境里学会完成任务的方法。之前的方案,要么全程不给技能,模型像无头苍蝇一样乱试,根本学不会复杂任务;要么全程给技能,模型只会照着念,永远形成不了自己的能力。

SKILL0 做了一个巧妙的设计:训练的时候,给模型完整的技能上下文;但推理评估的时候,把所有技能全拿走,即上下文强化学习。

这里对上下文做了特殊处理:技能和历史交互不是直接用文本塞进 prompt,而是渲染成一张图片,用视觉编码器压缩。文本 token 开销太大,渲染成图片后,语义信息用颜色编码。视觉编码器一张图就能压缩掉大量文本,同时保留结构信息。

SKILL0 收到的环境任务奖励后,同时计算了自压缩的奖励,共同成为组内优势进行参数更新:

第三步:动态课程学习

训练分 Ns 个阶段,技能预算线性衰减。拿 ALFWorld 举例,6 个技能文件,3 个阶段,预算序列是 [ 6, 3, 0 ] ——第一阶段用最多 6 个,第二阶段砍到最多 3 个,第三阶段一个不给。

但不是随便筛选,也不是预先设定筛选顺序。每个阶段都有一套 Filter → Rank → Select 的在线筛选机制:

1. 先评估帮助度。  每隔 10 步,对每个技能文件做一次对比测试:有这个技能时准确率多少,没有时多少。差值就是这个技能的 " 帮助度 "。

2. 再过滤排序。  只保留帮助度大于 0 的技能(确实还有用的),按帮助度从高到低排。

3. 最后按预算选取。在不超过当前预算的前提下,保留排名前列的技能文件。

论文的 Figure 6 展示了技能帮助度的变化曲线:

可以发现这套机制带来了一个有意思的训练现象:

早期帮助度低——模型还不会利用技能

中期帮助度上升——模型学会了利用技能

后期帮助度回落——模型已经内化了技能知识,不再需要外部提示

论文还证明了为什么用线性衰减而不是其他策略。附录里的理论分析显示,线性衰减确保每两个阶段之间的分布变化有上界,避免 PPO 训练时重要性采样比率爆炸。

实验数据

在 ALFWorld 任务上:3B 模型的 SKILL0,平均成功率87.9%,比标准 RL 基线 AgentOCR 直接高了9.7%,甚至比全程带技能的 SkillRL(82.4%)还要强。

Search-QA 任务:同样 3B 模型,平均分40.8%,比 AgentOCR 高了6.6%,和带技能的 SkillRL 打平甚至反超。

7B 模型效果直接碾压闭源大模型:在文章附录里的 ALFWorld 任务结果中,SKILL0 零技能推理做到了 89.8% 的成功率,远超 GPT-4o(48.0%)和 Gemini-2.5-Pro(60.3%)。

除了出色的效果,还有它极致的 token 效率。

3B 模型的 SKILL0,每步推理的上下文 token 开销在 ALFWorld 任务仅0.38k,Search-QA 任务仅0.18k,比 SkillRL 省了 5 倍还多。

训练曲线如下:

训练初期,带技能的模型效果涨得更快,不带技能的效果差强人意;但随着训练推进,不带技能的效果慢慢追了上来,最后甚至反超。这就是实打实的技能内化——模型真的把技能刻进了参数里,不是临时抱佛脚。

还有一组消融实验的数字特别说明问题。如果训练全程都给满技能 [ 6, 6, 6 ] ,推理时一拿掉,性能暴跌 12.3 个点。但 SKILL0 的渐进课程 [ 6, 3, 0 ] 呢?推理时拿掉技能后,性能反而提升了 1.6 个点

如果把动态课程的 Filter 去掉(不过滤,直接取前 M 个),性能掉 2.7%。如果连 Rank 也去掉(随机选技能),直接暴跌到 62.9%,比完整的 SKILL0 低了 13.7%。

总结

当前 Agent 生态的大部分努力,都花在了 " 更好的检索、更好的技能库、更好的注入方式 " 上,SKILL0 提出了一个不同方向:让技能内化入模型参数。这样参数量受限的小模型,或许就能靠端到端训练成为能够胜任复杂任务的领域专家。

当然,技能内化不会取代所有运行时增强。需要实时更新的知识(比如最新 API 变更)还是得靠检索。但对于稳定的、可复用的行为模式,从 " 外部工具 " 到 " 内在能力 " 的转变,可能才是 Agent 真正走向自主的关键一步。

论文标题:

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

论文地址:

https://arxiv.org/abs/2604.02268

项目代码:

https://github.com/ZJU-REAL/SkillZero

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 

感兴趣的小伙伴欢迎关注  了解详情

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

技能 浙江大学 阅读 阅读器
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论