大模型通往现实世界的 " 最后三公里 ",Agent 已然成为最具代表性的入场券。
但当下的共识发生了微妙的变化:
衡量一个 Agent 够不够强,早已不再看它能不能 " 答对问题 ",而是看它在面对多轮推理、工具调用及复杂协作时,能否用最短的路径、最少的交互预算,稳定地搞定任务。
在这一背景下,一个长期被行业忽视的底层命题浮出水面:
当 Agent 的框架、工具、数据和训练方式都保持一致时,仅仅改变语言模型的生成范式(Autoregressive vs Diffusion),是否会系统性地改变 Agent 的规划与行为模式?
近日,来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队,在最新工作《DLLM Agent: See Farther, Run Faster》中,对这一问题给出了迄今为止最 " 对照实验式 " 的回答。
他们发现,仅仅是把 " 底座 " 换成了扩散式大模型(DLLM),Agent 就像突然开了 " 上帝视角 ",执行速度不仅提升了30% 以上,甚至在部分复杂任务中跑出了8 倍于传统 AR 模型的效率。
文章链接:
https://arxiv.org/pdf/2602.07451
官方网页:
https://noah-dllm.github.io/
核心结论一览
在完全相同的 Agent 工作流、训练数据和交互预算下,研究发现:
在准确率基本持平的前提下,DLLM Agent 端到端执行速度平均提升 30% 以上;
在成功解题的条件下,DLLM Agent 使用更少的交互轮次和工具调用;
DLLM 展现出更强的 planner 能力:更早收敛到正确轨迹、回溯和冗余更少;
这种优势并非仅来自并行解码速度,而是体现在 Agent 级别的规划与决策行为上。
一个 " 极端公平 " 的对照实验设计
为了避免 " 框架差异 "、" 提示工程 "、" 数据不一致 " 等干扰因素,作者采用了非常严格的对照实验设置:
使用同一个 Agent 框架:DeepDiver(多智能架构,层级式规划,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);
使用同一套工具接口与解析规则;
使用完全相同的 Agent 任务进行继续训练;
统一context 长度上限(32K)、最大交互轮数、tool call 上限;
唯一变化因素:Agent 背后的生成范式
Autoregressive LLM(AR):openpangu 7b-v1
Diffusion Large Language Model(DLLM):openpangu diffusion 7b,这个模型是从 openpangu 7b-v1 续训得到的,模型的基础推理能力相似。
这意味着,实验中观察到的行为差异,不能归因于数据 / 模型的基础能力或 workflow,而只能来自生成范式本身。
不过,考虑到生成范式的不同,针对多轮长链交互的 DLLM 训练,作者使用了针对性调整的 Mask 策略和 Attention 裁剪策略,提升了 DLLM Agent 训练和推理的一致性。
同样的终点,更短的路径
在构建了对照平台后,研究团队将关注点转向了核心指标:即 DLLM 这种生成范式的改变,究竟能在多大程度上提升 Agent 的实战表现?
实验结果证明,DLLM Agent 的优势并非仅仅来自 " 算得快 ",更在于它在复杂规划中" 走得直 "。
1、BrowseComp-zh 基准测试:效率的全面跨越
研究团队在包含 110 条任务的 BrowseComp-zh(中文多轮 Web 浏览)子集上,完成了性能测试。

通过对海量测试结果的深度复盘,研究人员观察到了几个关键规律:
DLLM Agent 在准确率持平的情况下,
平均工具调用次数显著减少;
Agent 轨迹平均更短;
端到端延迟下降约 30%。
但同时也暴露出一个现实问题:原生 DLLM 更容易产生结构化 tool-call 错误。
此外,作者还展示了 DLLM Agent 和 AR Agent 在 Information Seeker 完成问题上的分布,可以清晰地看到 DLLM Agent 在处理问题时,往往能以更少的交互次数完成同样的任务。

2、案例实录:8.18 倍速度落差的背后
为了更直观地展现这种 " 走直路 " 的能力,可以看一个典型的多约束检索案例(涉及动物命名 + 中国互联网公司 + 团队合并 + 软硬件等多个维度),query 如下:

结果发现,尽管 AR Agent 和 DLLM Agent 最终都给出了正确答案,但其执行逻辑却展现出巨大的差异,不仅表现在端到端有 8.18 × 的速度差异上(如下表):

也表现在具体的 planner 执行过程上——
DLLM Agent 的 planner 质量更高,从而在部分 case 上表现出来远超过基础模型的效率差异的端到端性能收益。

DLLM 为何是天生的 " 强 Planner"?
论文并未停留在表面的数据对比,而是深入分析了 entropy 和 confidence 与扩散过程中的内部动态,试图从生成范式的底层原理,来解释 DLLM 为何在规划上更具优势。
一、Planner Agent:先全局、后细节
在任务拆解阶段,DLLM Planner 表现出独特的两阶段特征,这与人类先构思大纲再填补内容的思维方式不谋而合:
阶段一:并行提取关键信息
用户问题中的 4 个核心约束,往往在1 – 2 个 diffusion step 内就能被同时识别。
阶段二:逐步细化任务结构
在已有全局框架下,再逐步补充具体的逻辑细节。
这与 AR 的差异,主要体现在:
AR 必须按 token 顺序 " 边想边写 ";
一旦早期判断偏差,往往只能通过多轮 todo/re-plan/verification来修正。
这也直接解释了,为什么 AR Agent 在实验中更容易产生多个 todo_v1/todo_v2 冗余规划文档的原因。下图详细解释了 planner 在这个过程中的变化:

二、Information Seeker:先定方向,再填参数
在具体的工具调用阶段,DLLM 的生成模式呈现出一种极其稳定的结构化倾向:
它会首先确定调用哪个工具;
随后,并行生成参数与细节;
整个 tool-call 被视为一个整体 " 动作块 ",并在生成过程中被反复 refinement。
相比之下,AR Agent 的生成过程更像是一条不可回头的流水线:函数名→参数 1 →参数 2 → …
一旦前面的 token 出现语法或逻辑错误,AR 无法原地修正,只能寄希望于下一轮 tool call 来补救。

三、注意力演化:确定性的迅速锁定
研究团队通过对扩散过程中 Mask Token 的熵(Entropy)演化,以及不同阶段 Attention 的集中与分散的分析,得出了更深层的结论:
在 DLLM 的生成过程中,高不确定性集中在决策的早期阶段;
一旦高层决策形成,后续细节的生成会表现出极高的收敛速度;
attention 机制呈现出更明显的" 全局 → 局部 "协调模式,这与 AR 仅仅追求 token-level 的局部最优决策,形成了鲜明对比。
不过,作者并没有回避 DLLM 的不足之处——
Diffusion 模型在处理 Agent 场景时,对结构化输出更敏感。
通过设计训推一致的 Mask 策略与 Attention 策略(如 context-clean corruption 和 span-aware attention mask),可以提升 DLLM Agent 的推理性能。
这意味着,要充分发挥 DLLM 的潜力,并不能将其作为 AR 的简单替代品,而需要针对 Agent 的交互场景,重新对齐接口与训练目标。
生成范式重塑 Agent 设计维度
这项工作为 Agent 研究提供了一个全新的视角——
生成范式本身,会深刻塑造 Agent 的行为方式。
在完全相同的数据基底与技术框架下,DLLM Agent 展现出了超越传统自回归模型的执行效率:
更早形成全局计划
更少走弯路
更快速度结束任务
这使得 Diffusion 不再只是 " 另一种生成模型 ",而成为构建高效 Agent 的一个全新设计维度。
下方 Demo 直观展示了 DLLM Agent 在效率上的显著优势(同类对比示例可参考原论文中的 Case1):

* 本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见


登录后才可以发布评论哦
打开小程序可以发布评论哦