量子位 10小时前
为什么Agent总是Demo猛如龙实战一条虫?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

为什么 Agent 在演示时无所不能,到了实际场景却频频拉胯?

一篇长达 51 页的论文研究了自 ChatGPT 以来的主要智能体,给出参考框架:适应性是其中关键。

智能体定义上不是只会被动回答的 AI,而是能自己规划、用工具(比如搜索引擎、代码编译器、数据库)、记东西,一步步完成复杂任务。

当遇到新任务、新环境时,不需要重造一个新的智能体,而是通过 " 微调自己 " 或 " 优化工具 ",快速适配需求(比如从写普通代码适配到写垂直行业代码)。

这篇论文作者阵容豪华,来自 UIUC、斯坦福、普林斯顿、哈佛、UC 伯克利等 12 所高校的三十多位研究者联手,由 UIUC 的韩家炜教授团队领衔,共同一作 Pengcheng Jiang,Jiacheng Lin,Zhiyi Shi 为 UIUC 博士生。

Agent" 适应性 " 的四个象限

团队认为,当前 Agent 系统的核心瓶颈在于适应性:模型如何根据反馈信号调整自身行为。

为此,他们提出了一个 2 × 2 的分类框架,把现有的适应方法切成了四大范式。

第一个维度是 " 优化谁 ":是优化 Agent 本身(Agent Adaptation),还是它调用的工具(Tool Adaptation)。

第二个维度是 " 信号从哪来 ":是来自工具执行的结果,还是来自 Agent 最终输出的评估。

据此分成四类:

A1 范式让 Agent 根据工具执行的反馈来学习,比如代码能不能跑通、检索结果准不准。

A2 范式则是用 Agent 的最终答案作为优化信号,典型代表就是 DeepSeek-R1 这类用强化学习训练推理能力的工作。

T1 范式是即插即用:工具独立训练好,Agent 直接调用,比如 SAM、CLIP 这些预训练模型。

T2 范式让工具反过来根据 Agent 的输出来优化自己,形成一种共生适应的关系。

这样分类之后,有两个好处:

开发遇到问题时,不用盲目试错。想让 AI 更擅长工具的使用细 ",就选 A1;想让整体推理更靠谱,就选 A2;想让工具通用好用,就选 T1;想让工具适配特定 AI,就选 T2。

另外也明确了 trade-off。改 AI(A1/A2)灵活但成本更高,需要重新训练模型。改工具(T1/T2)省钱,但受限于 AI 本身的能力。

论文中还有一个关键发现:T2 范式的数据效率远超 A2 范式。

以检索增强生成任务为例,Search-R1 采用 A2 范式端到端训练 Agent,需要约 17 万条训练样本。

而采用 T2 范式,只训练一个轻量级的搜索子智能体来服务冻结的主模型,仅用 2400 条样本就达到了相当的效果。数据量减少了约 70 倍,训练速度快了 33 倍。

更值得注意的是泛化能力的差异。在医学问答这种专业领域测试中,T2 训练的智能体达到了 76.6% 的准确率,而 A2 训练的 Search-R1 只有 71.8%。

论文分析认为,这是因为 A2 范式要求模型同时学习领域知识、工具使用技能和任务推理三件事,优化空间过于复杂;而 T2 范式下,冻结的大模型已经具备知识和推理能力,小模型只需要学习 " 怎么搜 " 这一项程序性技能。

四大前沿方向指路

论文最后指出了 Agent 适应性研究的四个前沿方向。

协同适应(Co-Adaptation)是最具挑战性的课题。目前几乎所有方法都是 " 冻一个、调一个 ",但未来理想的系统应该让 Agent 和工具在同一个学习循环中相互优化。这带来了复杂的信用分配问题:任务失败了,到底该怪 Agent 还是工具?

持续适应(Continual Adaptation)针对的是真实世界的非平稳性。任务分布会随时间变化,工具会更新,用户需求会演进。如何让 Agent 持续学习新技能而不遗忘旧能力,是部署层面的核心难题。

安全适应(Safe Adaptation)揭示了一个令人担忧的现象:大模型在强化学习优化推理能力的过程中,会逐渐侵蚀掉监督微调阶段建立的安全护栏。模型学会了用复杂的 " 思维链 " 给自己的违规行为编造理由,反而更容易被越狱攻击。

高效适应(Efficient Adaptation)关注的是资源受限场景。论文介绍了 LoRA 在强化学习中的应用、FlashRL 的量化加速技术,以及端侧设备的个性化适应方案。

这篇综述的 GitHub 仓库已经开放,持续收录相关论文和资源。对于正在搭建 Agent 系统的开发者来说,这份 51 页的 " 适应性指南 " 或许能避开一些坑。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 搜索引擎 斯坦福 数据库 伯克利
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论