多智能体系统要继续涨性能,不一定非得先改工作流。
在真实部署里,医疗诊断 SOP、金融审计流程这类多智能体系统,往往已经经过专家设计、安全验证和合规审查,一旦上线,拓扑结构很难随意调整。
但工作流固定,不代表优化空间就消失了。
真正还能动、也最直接影响系统表现的,变成了每个 Agent 的 Prompt 配置。
问题是,MAS Prompt 优化并不简单:
每次评估都要完整跑一遍多智能体流程,上游 Agent 的 Prompt 变化还会影响下游输入分布,联合搜索空间也会随着 Agent 数量指数级膨胀。
针对这一问题,香港中文大学(深圳)、香港科技大学(广州)、华南理工大学和立命馆大学的研究团队提出了MASPOB(Multi-Agent System Prompt Optimization via Bandits)。
一个基于 Bandit 的样本高效 Prompt 优化框架,且该工作已被ICML 2026 接收为 Spotlight。

固定工作流里,Prompt 成了最关键的优化入口
近年来,以 LLM 为核心的多智能体系统快速发展。通过将复杂任务分解为多个专业 Agent 之间的协作交互,多智能体系统在代码生成、数学推理、问答等任务上展现出超越单模型的性能。
研究表明,系统表现不仅取决于底层 LLM 的能力,还受到工作流拓扑结构与各 Agent Prompt 配置的显著影响。
然而在许多真实部署场景中,MAS 的工作流拓扑往往经过了专家设计、安全验证和合规审查,例如医疗诊断 SOP、金融审计流程,一旦投入使用便难以随意修改,任何结构调整都可能触发高代价的重新验证程序。
在这种固定拓扑的约束下,调整各 Agent 的 Prompt 成为改善系统性能的关键手段,这引出了本文的核心问题:
在固定工作流拓扑的条件下,如何高效地对 MAS 中各 Agent 的 Prompt 进行联合优化?
研究团队将该问题形式化为一个有预算的组合黑盒优化问题。
在多个 Agent 中,每个 Agent 都有一组候选 Prompt。目标是在最多评估 T 次的限制内,找到一组表现最好的 Prompt 组合,让整个系统在验证集上的效果最优。
这一问题的难点体现在三个方面:
评估代价高昂:每次评估一套 Prompt 组合,需要完整执行 MAS 流程,涉及多次 LLM 调用,可用评估次数极为有限。
拓扑诱导的耦合:上游 Agent 的 Prompt 变化会影响下游 Agent 的输入分布,各 Agent 的 Prompt 并非相互独立,导致优化目标不可分离。
组合搜索空间爆炸:联合搜索空间为各 Agent 候选集的笛卡尔积,大小随 Agent 数量指数增长,穷举不可行。
把 Prompt 搜索,变成一场有预算的 Bandit 问题
为应对上述三个问题,研究团队提出 MASPOB 算法,该算法由三个核心组件构成:

△MASPOB 框架总览
首先是「拓扑感知的性能代理模型」。
为捕捉 Agent 间的拓扑依赖,MASPOB 将 MAS 工作流建模为有向无环图(DAG),以各 Agent 的 Prompt 嵌入为节点特征,采用图注意力网络(GAT)进行消息传递,学习能够感知拓扑结构的 Prompt 语义表示。
具体地,GAT 通过注意力加权聚合邻居信息来更新节点表示,最终经均值池化和 MLP 输出预测性能分数,作为 Bandit 框架中的利用(exploitation)信号。
这一设计使代理模型能够显式建模上游 Prompt 变化对下游 Agent 的影响。
以及基于 Bandit 的「探索 - 利用权衡」。
为在有限评估预算下实现样本高效的搜索,MASPOB 将 Prompt 组合优化建模为 Bandit 问题,采用线性置信上界(LinUCB)构造采集函数:

该采集函数在倾向于高预测性能(利用)的同时,也对未充分探索的区域赋予更高的评分(探索),从而在有限预算内实现高效的 Prompt 组合搜索。
此外还包括「坐标上升搜索」。
为解决组合搜索空间的指数爆炸问题,MASPOB 采用坐标上升策略,将联合优化分解为对各 Agent 的逐一单变量优化,由于 UCB 评估仅需 GNN 前向推理而无需实际执行 MAS,每轮坐标上升的计算开销可忽略不计。
坐标上升中使用的 GNN 代理模型保留了对 Agent 间拓扑依赖的建模,因此分解并不意味着忽略耦合。
实验结果
研究团队在问答(HotpotQA、DROP)、代码生成(HumanEval、MBPP)和数学推理(GSM8K、MATH)六个基准上进行了评估,所有方法在相同的 50 次验证集评估预算下进行对比,backbone LLM 为 GPT-4o-mini。

△MASPOB 在 6 个不同基准上的表现
如图所示,MASPOB 在所有六个基准上均取得最优结果,平均得分为80.58%。
相较 IO 基线、AFlow、MIPRO 分别提升12.02%、2.06%、1.71%,在相同的 50 次验证集评估预算下一致优于现有方法。
从各任务的具体表现来看,MASPOB 在问答、代码生成、数学推理三类任务上均取得最优结果:
问答任务:HotpotQA 达到 75.43%,DROP 达到 82.28%。
代码生成任务:HumanEval 达到 94.15%,MBPP 达到 80.65%。
数学推理任务:GSM8K 达到 93.90%,MATH 达到 57.05%。
性能增益在三类任务上均有体现,说明 MASPOB 的提升并不局限于某一特定任务类型,而是来自对各 Agent Prompt 的整体协调优化。
拓扑复杂度的泛化性
为验证 MASPOB 在更复杂工作流下的泛化能力。
研究团队使用 AFlow 生成了拓扑更复杂的 MAS 结构(HotpotQA、DROP、HumanEval 分别采用 8、7、7 个 Agent,相比原始的 3、2、3 个 Agent),在保持其余实验设置不变的条件下进行对比。
在更复杂的拓扑结构下,MASPOB 在三个任务上依然取得最优结果:

△MASPOB 在复杂 MAS 拓扑结构上的表现
HotpotQA、DROP、HumanEval 上的得分分别为 74.43%、81.55%、90.08%,平均得分为 82.02%。
与原始拓扑下的结果相比,三个任务上的性能均有所变化(HotpotQA: 75.43% → 74.43%,DROP: 82.28% → 81.55%,HumanEval: 94.15% → 90.08%)。
但方法间的相对排名保持不变,MASPOB 在两种拓扑设置下均保持最优。
算法的收敛性
在算法的收敛性上,MASPOB 在验证集和测试集上均呈现出较为稳定的收敛趋势。
验证集准确率以每五轮的分段均值(binned average)形式呈现,随评估轮次持续提升。

△验证集与测试集上的收敛曲线
测试集性能在第 5、10、…、50 轮各节点处,对当前所选 Prompt 组合进行评估并取三次独立运行的均值,两条曲线的整体走势较为一致。
从收敛过程来看,测试集性能随轮次增加呈现出前期提升较快、后期趋于平稳的规律。
具体而言,性能在前 35 轮内持续提升,在第 35 轮左右趋于稳定,此后至第 50 轮各评估节点的性能变化幅度相对有限。
验证集曲线与测试集曲线在整个优化过程中整体走势一致,表明验证集上的优化过程与测试集性能具有较好的一致性。
消融实验
为验证 GNN 代理模型在拓扑建模中的作用,研究团队将 GNN 模块替换为多层感知机(MLP),保持其余组件不变,对比两者的性能差异。
如图所示,去除 GNN 后平均性能下降2.31%,所得结果略低于 AFlow(差距约 0.25%)。

△GNN 消融实验
从各任务的具体数字来看,GNN 带来的性能差异(即 MASPOB 与去除 GNN 版本之间的差距)在各任务上有所不同:
HumanEval 上为 +3.82%,DROP 上为 +3.08%,MATH 上为 +3.48%,MBPP 上为 +1.47%,HotpotQA 上为 +1.05%,GSM8K 上为 +0.95%。
GNN 在六个任务上均带来了正向提升,说明显式建模工作流拓扑结构对 Prompt 优化的性能具有一致的正向贡献。

△坐标上升消融实验
为评估坐标上升策略的有效性,研究团队在 HotpotQA 和 DROP 两个基准上,将坐标上升替换为穷举全局搜索,保持其余实验设置不变,对比两者在性能和运行时间上的差异。
如图所示,两者在性能上的差距较小:HotpotQA 上坐标上升与全局搜索分别为 75.43% 和 75.72%,差距为 0.29%;DROP 上分别为 82.28% 和 82.76%,差距为 0.48%。
在运行时间上,两者差异显著:HotpotQA 上坐标上升耗时 15.9s,全局搜索耗时 8801s,前者减少99.8%;DROP 上坐标上升耗时 7.7s,全局搜索耗时 392s,前者减少98.0%。
上述结果表明,坐标上升在性能损失较小的前提下,运行时间大幅低于穷举全局搜索。
总的来说,MASPOB 真正回答的,是固定工作流下多智能体系统还能如何继续优化的问题。
从六个基准上的实验结果来看,这套方法在相同评估预算下均取得最优表现,也说明多智能体系统的性能提升,并不只来自更复杂的工作流设计。
在固定拓扑约束下,如何更系统、更高效地调好每个 Agent 的 Prompt,同样可能成为多智能体系统走向真实应用前的一项关键能力。
参考链接:
[ 1 ] 论文链接:https://arxiv.org/abs/2603.02630
[ 2 ] 代码下载:https://github.com/HZ1008/MASPOB
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生
感兴趣的小伙伴欢迎关注 了解详情

点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦