在长周期、多步骤的协作任务中,传统单智能体往往面临着任务成功率随步骤长度快速衰减,错误级联导致容错率极低等问题。
为了应对这些问题,就需要构建具备全局规划与因果依赖管理能力的分布式智能体框架,并在真实游戏中验证效能。
基于此,来自港科广和腾讯的研究团队提出了CausalMACE方法,通过将因果推理机制系统性地引入开放世界多智能体系统,为复杂任务协同提供了可扩展的工程化解决方案。
目前,该工作已中稿 EMNLP 2025 Findings。
全局因果任务图
为了让一群 AI 像项目团队一样,既分工明确又能动态调整。论文提出 " 全局因果任务图 " 概念,让 AI 学会 " 如果 - 那么 " 的逻辑。
换句话说,就是先搭地基再砌墙,先找食材再下锅。
具体来说,全局因果任务图包含两个部分:
因果干预模块:引入平均处理效应 ( ATE ) 量化每条依赖边与游戏规则的一致性,自动剔除由大模型先验幻觉导致的错误依赖
负载感知调度:基于 DFS 路径搜索与动态 " 繁忙率 " 指标,实现多智能体实时任务再分配
而在方法框架层面,CausalMACE 则包含 " 判断 "、" 规划 "、" 执行 " 三个环节。
Judger —— " 裁判 "
实时验证动作是否合法,并给出成败反馈,保证所有智能体在同一套游戏规则下行动。
Planner —— " 总工 "
先把复杂任务拆成若干 " 小工单 ",一次性列清。
然后再按游戏规则画一张 " 粗线条流程图 "。
之后,再用因果推理 " 精修 " 这张图,对每一条先后关系,让大模型回答 " 如果游戏规则变了,这条先后关系还成立吗?"
如果,所有规则改变均不影响关系的成立,就删掉这条关系,避免 AI 做无用功。
经过这轮 " 去伪存真 ",得到一张干净、可执行的任务因果图。
Worker —— " 调度室 "
首先,用深度优先搜索把因果图拆成多条 " 生产线 ",给每条生产线实时计算 " 繁忙指数 "。其中,正在这条线上干活的 AI 越多、离起点越远,指数越高。
接下来,让新来的 AI 自动加入指数最低的那条线,既避免扎堆,也减少等待。每完成一步,AI 向 Planner 申请下一步任务,整个过程持续迭代。
实验结论:完成率效率双增强
在 VillagerBench 三项基准任务(建造、烹饪、密室逃脱)中,相较 AgentVerse 与 VillagerAgent 基线,任务完成率最高提升 12%,效率提升最高达 1.5 倍。
代理工作量更加平衡,相同设置下最大增益达到 13%。
One more thing
这篇论文的通讯作者是来自香港科技大学(广州)的助理教授、博士生导师——王浩教授。
他 2023 年博士毕业于新加坡南洋理工大学,曾在 TikTok、地平线等公司科研工作。
主要研究兴趣为大模型生成式智能体和三维重建。发表 TPAMI、IJCV、CVPR、NeurIPS 等领域顶级会议期刊论文 50 余篇。主持国家自然科学基金青年项目,参与国家科技部国家重点研发计划项目,获 2023 年 SMP-IDATA 晨星青年基金、2024 年腾讯犀牛鸟专题项目。
论文链接: http://arxiv.org/abs/2508.18797
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦