当问题又深又复杂时,一味上最强模型既贵又慢。测试时扩展能想得更久,却不一定想得更对。
最近,来自英伟达和香港大学的研究员提出一种新范式:用一个 8B 小模型当指挥家,把代码解释器、网络搜索、数学模型、甚至更强的大模型当作乐手,按需编排、分工合作,用强化学习把 " 正确、便宜、合你心意 " 三件事同时做到。
在人类最后一场考试(Humanity ’ s Last Exam)上,指挥家 Orchestrator-8B 以 37.1% 的成绩超过 GPT-5(35.1%),还更省 2.5 × 计算成本;在 τ² -Bench 与 FRAMES 上同样全面领先,成本却只有对手的大约三成。

为什么需要 Agent 微调?
只靠提示词也可以搭建一个多智能体系统,但是论文发现,依赖提示词的系统,存在着两大偏见:
自增强偏见:模型倾向 " 找自己家族的人帮忙 ";例如 GPT-5 倾向于调用 GPT-5-mini,造成性能下降。
他增强偏见:无脑调用 " 最强模型 ",成本爆表。例如 Qwen3-8B 大量把活交给 GPT-5,不管代价如何。
这两种偏见的存在都会让一个大模型 " 自我调度 " 往往失灵:因此,论文提出使用强化学习训练指挥家 agent,通过多重奖励来提升效果和效率。
ToolOrchestra:统一接口 + 多轮编排 + 强化学习三重奖励
ToolOrchestra 的核心是把各种工具(网页 / 本地检索、代码执行、数学与通用 LLM 等)统一成一个 JSON 接口,让 8B 指挥家能在多轮回合里先思考、再调用、再读回馈,直到收敛。训练上,使用 GRPO 强化学习,ToolOrchestra 让模型同时最大化三种奖励:
1 正确性(任务是否解决);
2 效率(货币 / 时延罚项);
3 用户偏好(你更爱本地检索还是云搜索,更看重速度还是成本)。

为了配合强化学习训练,论文还打造了一个合成数据集 ToolScale:先由 LLM 生成领域数据库与 API,再自动合成 " 任务—黄金动作序列 ",并通过执行正确性、过程完整性等可验证标准筛选。覆盖金融、医疗、出行、教育等 10 个领域,为端到端 RL 提供真实而丰富的环境。

实验亮点:更强、更省,还更稳
主赛道:
HLE(人类最后一场考试):Orchestrator-8B 37.1% > GPT-5(35.1%)。
FRAMES(事实推理):Orchestrator-8B 76.3 > GPT-5(74.0)。
τ² -Bench(复杂工具调用):80.2 > GPT-5(77.7)。
同时平均成本仅 9.2 美分,时延 8.2 分钟,显著低于 GPT-5。

成本—效果曲线
在同等预算下,Orchestrator-8B 的准确率曲线始终在 GPT-5、Claude 等曲线之上;相当准确率下花得更少。

不 " 迷信最强 " 而是 " 各尽其用 "。指挥家不会一味狂点 GPT-5,而是平衡调用:本地 / 网页检索、代码执行、专长模型(如数学 / 编程)与通用 LLM 各司其职,用最省的刀切最对的菜。
泛化到 " 新乐手 " 也不慌。即便换成训练时没见过的工具 / 模型组合,指挥家依旧能从模型描述推断其强弱与擅长领域,维持最优性价比。
听你的:偏好对齐,对 " 更私的本地检索 / 更快 / 更省 " 等偏好,指挥家比强基座更能遵命行事,把 " 合你心意 " 从口号变成指标。
新范式:Orchestration agent 微调 + 多 agent 多工具调用
这篇论文给解决复杂的任务提供了一个新的范式,从 " 一个大模型包打天下 ",到 " 小模型 + 工具 + 专家模型的复合系统 "。从实用角度来看,把昂贵的最好的大模型留给真正难点,其余交给便宜、高效的工具链,稳定、可控、可落地。对于企业客户来说,这套系统在多个场景里都可以直接应用:
场景 1:企业内部问答 / 报表分析——默认用本地索引 + 代码沙盒完成 80% 工作,只在遇到歧义 / 复杂推理时短暂 " 借力 " 强模型。
场景 2:研发检索 / 调研——设定 " 时间上限 / 成本上限 " 与 " 来源偏好 "(本地 / 公开),让指挥家边走边权衡。
场景 3:Agent 工作流——把函数 / 工具都纳入统一接口,交给指挥家端到端编排,而不是靠写死的 if-else。
Orchestrator-8B 不是 " 更大的大模型 ",而是更像一位懂乐谱、听细节、会省钱的 " 工具乐队指挥家 "。当智能从单体走向复合系统,我们更需要这样的 " 协调者 ",在正确率、成本、时延与偏好之间,给出最优解。
目前,论文已经开放全部代码、模型与数据,方便学界与产业跟进。
论文 : https://arxiv.org/abs/2511.21689
代码 : https://github.com/NVlabs/ToolOrchestra/
模型 : https://huggingface.co/nvidia/Orchestrator-8B
数据 : https://huggingface.co/datasets/nvidia/ToolScale
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦