是时候为传统微调献上挽歌了。
一项全新研究,刚刚又给微调致命一击。
来自斯坦福大学、SambaNova Systems 公司和加州大学伯克利分校的研究人员,在新论文中证明:
依靠上下文工程,无需调整任何权重,模型也能不断变聪明。
他们提出的方法名为智能体上下文工程 ACE。
ACE 不依赖模型重新训练,而是让上下文自主进化,通过反复生成、反思并编辑自己的提示,直至成为一个自我完善的系统。
在智能体和特定领域的基准测试中,ACE 能同时优化离线上下文(如 system prompt)和在线上下文(如 agent memory),并稳定优于强力基线模型。
下面具体来看。
ACE 框架
现在很多 AI 应用(比如自动处理财务数据的工具、能调用 APP 的智能助手)都靠 " 上下文适配 " 来提升能力。
简单来说,就是不给模型改底层参数,而是在输入里加指令、策略或证据,但老方法有两个大问题:
简洁偏置
为了让输入简短,把关键细节丢了。比如只说 " 处理财务数据 ",却没说 " 要按 XBRL 格式核对数值 ",导致模型犯错。
上下文崩溃
反复修改输入时,模型会把之前积累的有用信息越改越短、越改越没用。比如原本有 1.8 万个 token 的实用策略,准确率为 66.7,改一次就剩 122 个 token,效果却下降到 57.1。
ACE 就是为了解决这两个问题来的,与将知识压缩为简短摘要或静态指令的方法不同,它将上下文视为不断演化的操作手册,能够随时间不断累积、优化并组织策略。
基于 Dynamic Cheatsheet 的智能体设计,ACE 把模型的 " 上下文优化 " 拆成分工明确的三个角色。
生成器(Generator):负责生成推理轨迹;
反思器(Reflector):负责从成功和错误中提炼具体见解;
整理器(Curator):负责将这些见解整合到结构化的上下文更新中。
如上图所示,工作流程首先由生成器针对新查询生成推理轨迹,这些轨迹既能呈现有效策略,也会暴露常见错误。
随后,反思器对这些轨迹进行评析,从中提炼出经验教训,并可选择通过多轮迭代加以优化。
接着,整理器将这些经验合成为简洁的增量条目,再经由轻量级的非 LLM 逻辑,以确定性的方式将其合并至现有上下文中。
由于更新内容被逐项分解并局部化,多个增量得以并行合并,从而实现大规模的批量适应。
此外,ACE 还支持多轮次适应机制,即对同一组查询进行反复学习,逐步强化上下文质量。
ACE 在两大场景中全面超越基线
实验结果表明,在智能体和财务分析两大场景中,ACE 稳定优于 Base LLM(无适配)、ICL(少样本演示)、GEPA(主流 prompt 优化)、Dynamic Cheatsheet(动态备忘单)等方法。
在智能体测试中,研究团队采用的是 AppWorld,它是一套自主智能体任务集合,涵盖 API 理解、代码生成和环境交互。
结果显示,ReAct+ACE 相比 ReAct+ICL 和 ReAct+GEPA 分别领先 12.3% 和 11.9%,优势显著。这表明,与固定的演示示例或单一优化指令提示相比,结构化、可演进且精细化的上下文能够更有效地促进智能体学习。
这一优势在在线场景中同样得以延续:ACE 平均以 7.6% 的性能提升领先于 Dynamic Cheatsheet 等现有自适应方法。
在财务分析中,研究者选用 FiNER 和 Formula 来测评模型的金融推理能力,其任务依赖可扩展商业报告语言(XBRL)。
FiNER 要求对 XBRL 财务文档中的 token 进行标注,将其归类为 139 种细粒度实体类型之一,这是在受监管领域进行金融信息抽取的关键步骤。
Formula 则侧重于从结构化 XBRL 报告中提取数值,并通过计算回答金融查询,即进行数值推理任务。
在离线环境下,当模型获得训练集中的真实答案作为输入时,ACE 以平均 10.9% 的优势明显超越了 ICL、MIPROv2 和 GEPA。
此外,ACE 在降低自适应成本(如尝试次数和 token 输入 / 生成的费用)与延迟方面展现出显著优势。
具体而言,在 AppWorld 的离线自适应任务中,与 GEPA 相比,ACE 将自适应延迟降低了 82.3%,并将尝试次数减少了 75.1%。
在 FiNER 的在线自适应场景中,与 DC 相比,ACE 实现了 91.5% 的自适应延迟降低,并在 token 输入与生成的相关费用上节省了 83.6%。
华人出品
这项研究的两位一作都是华人。
Qizheng Zhang,斯坦福大学计算机科学系四年级博士生。此前在芝加哥大学获得了数学、计算机科学和统计学三个专业的学士学位。
本科期间,他就与 Junchen Jiang 和 Ravi Netravali 两位教授合作开展计算机网络研究,专注于面向视频流与分析的网络系统设计。
此外,他还在美国阿贡国家实验室数学与计算机科学部(MCS)和微软研究院实习过。
Changran Hu,本科毕业于清华大学,硕士毕业于加州大学伯克利分校。
20 岁时,他就成为了一家 AI 音乐生成公司 DeepMusic 的联合创始人,成功获得来自中国顶级企业的 1000 万美元投资,并与多位中国流行歌手(如周杰伦、李健)建立合作。
随后,他以应用科学家实习生的身份加入微软,并于 2021 年成为 Sambanova Systems 研究工程师,随后晋升为技术主管兼经理,主要负责模型后训练与智能体 AI 相关研发工作。
参考链接:
[ 1 ] https://x.com/rryssf_/status/1976269613072843063
[ 2 ] http://arxiv.org/abs/2510.04618
[ 3 ] https://openreview.net/profile?id=~Qizheng_Zhang1
[ 4 ] https://www.linkedin.com/in/changran-hu/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️ 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与
一键关注 点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦