Agent微调复活？英伟达开源8B新模型带飞GPT-5：在HLE狂卷37分，还把成本打下来

当问题又深又复杂时，一味上最强模型既贵又慢。测试时扩展能想得更久，却不一定想得更对。

最近，来自英伟达和香港大学的研究员提出一种新范式：用一个 8B 小模型当指挥家，把代码解释器、网络搜索、数学模型、甚至更强的大模型当作乐手，按需编排、分工合作，用强化学习把 " 正确、便宜、合你心意 " 三件事同时做到。

在人类最后一场考试（Humanity ’ s Last Exam）上，指挥家 Orchestrator-8B 以 37.1% 的成绩超过 GPT-5（35.1%），还更省 2.5 × 计算成本；在 τ² -Bench 与 FRAMES 上同样全面领先，成本却只有对手的大约三成。

为什么需要 Agent 微调？

只靠提示词也可以搭建一个多智能体系统，但是论文发现，依赖提示词的系统，存在着两大偏见：

自增强偏见：模型倾向 " 找自己家族的人帮忙 "；例如 GPT-5 倾向于调用 GPT-5-mini，造成性能下降。

他增强偏见：无脑调用 " 最强模型 "，成本爆表。例如 Qwen3-8B 大量把活交给 GPT-5，不管代价如何。

这两种偏见的存在都会让一个大模型 " 自我调度 " 往往失灵：因此，论文提出使用强化学习训练指挥家 agent，通过多重奖励来提升效果和效率。

ToolOrchestra：统一接口 + 多轮编排 + 强化学习三重奖励

ToolOrchestra 的核心是把各种工具（网页 / 本地检索、代码执行、数学与通用 LLM 等）统一成一个 JSON 接口，让 8B 指挥家能在多轮回合里先思考、再调用、再读回馈，直到收敛。训练上，使用 GRPO 强化学习，ToolOrchestra 让模型同时最大化三种奖励：

1 正确性（任务是否解决）；

2 效率（货币 / 时延罚项）；

3 用户偏好（你更爱本地检索还是云搜索，更看重速度还是成本）。

为了配合强化学习训练，论文还打造了一个合成数据集 ToolScale：先由 LLM 生成领域数据库与 API，再自动合成 " 任务—黄金动作序列 "，并通过执行正确性、过程完整性等可验证标准筛选。覆盖金融、医疗、出行、教育等 10 个领域，为端到端 RL 提供真实而丰富的环境。

实验亮点：更强、更省，还更稳

主赛道：

HLE（人类最后一场考试）：Orchestrator-8B 37.1% ＞ GPT-5（35.1%）。

FRAMES（事实推理）：Orchestrator-8B 76.3 ＞ GPT-5（74.0）。

τ² -Bench（复杂工具调用）：80.2 ＞ GPT-5（77.7）。

同时平均成本仅 9.2 美分，时延 8.2 分钟，显著低于 GPT-5。

成本—效果曲线

在同等预算下，Orchestrator-8B 的准确率曲线始终在 GPT-5、Claude 等曲线之上；相当准确率下花得更少。

不 " 迷信最强 " 而是 " 各尽其用 "。指挥家不会一味狂点 GPT-5，而是平衡调用：本地 / 网页检索、代码执行、专长模型（如数学 / 编程）与通用 LLM 各司其职，用最省的刀切最对的菜。

泛化到 " 新乐手 " 也不慌。即便换成训练时没见过的工具 / 模型组合，指挥家依旧能从模型描述推断其强弱与擅长领域，维持最优性价比。

听你的：偏好对齐，对 " 更私的本地检索 / 更快 / 更省 " 等偏好，指挥家比强基座更能遵命行事，把 " 合你心意 " 从口号变成指标。

新范式：Orchestration agent 微调 + 多 agent 多工具调用

这篇论文给解决复杂的任务提供了一个新的范式，从 " 一个大模型包打天下 "，到 " 小模型 + 工具 + 专家模型的复合系统 "。从实用角度来看，把昂贵的最好的大模型留给真正难点，其余交给便宜、高效的工具链，稳定、可控、可落地。对于企业客户来说，这套系统在多个场景里都可以直接应用：

场景 1：企业内部问答 / 报表分析——默认用本地索引 + 代码沙盒完成 80% 工作，只在遇到歧义 / 复杂推理时短暂 " 借力 " 强模型。

场景 2：研发检索 / 调研——设定 " 时间上限 / 成本上限 " 与 " 来源偏好 "（本地 / 公开），让指挥家边走边权衡。

场景 3：Agent 工作流——把函数 / 工具都纳入统一接口，交给指挥家端到端编排，而不是靠写死的 if-else。

Orchestrator-8B 不是 " 更大的大模型 "，而是更像一位懂乐谱、听细节、会省钱的 " 工具乐队指挥家 "。当智能从单体走向复合系统，我们更需要这样的 " 协调者 "，在正确率、成本、时延与偏好之间，给出最优解。

目前，论文已经开放全部代码、模型与数据，方便学界与产业跟进。

论文 : https://arxiv.org/abs/2511.21689

代码 : https://github.com/NVlabs/ToolOrchestra/

模型 : https://huggingface.co/nvidia/Orchestrator-8B

数据 : https://huggingface.co/datasets/nvidia/ToolScale

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代