华为发布业界首个扩散语言模型Agent，部分场景提速8倍！

大模型通往现实世界的 " 最后三公里 "，Agent 已然成为最具代表性的入场券。

但当下的共识发生了微妙的变化：

衡量一个 Agent 够不够强，早已不再看它能不能 " 答对问题 "，而是看它在面对多轮推理、工具调用及复杂协作时，能否用最短的路径、最少的交互预算，稳定地搞定任务。

在这一背景下，一个长期被行业忽视的底层命题浮出水面：

当 Agent 的框架、工具、数据和训练方式都保持一致时，仅仅改变语言模型的生成范式（Autoregressive vs Diffusion），是否会系统性地改变 Agent 的规划与行为模式？

近日，来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队，在最新工作《DLLM Agent: See Farther, Run Faster》中，对这一问题给出了迄今为止最 " 对照实验式 " 的回答。

他们发现，仅仅是把 " 底座 " 换成了扩散式大模型（DLLM），Agent 就像突然开了 " 上帝视角 "，执行速度不仅提升了30% 以上，甚至在部分复杂任务中跑出了8 倍于传统 AR 模型的效率。

文章链接：

https://arxiv.org/pdf/2602.07451

官方网页：

https://noah-dllm.github.io/

核心结论一览

在完全相同的 Agent 工作流、训练数据和交互预算下，研究发现：

在准确率基本持平的前提下，DLLM Agent 端到端执行速度平均提升 30% 以上；

在成功解题的条件下，DLLM Agent 使用更少的交互轮次和工具调用；

DLLM 展现出更强的 planner 能力：更早收敛到正确轨迹、回溯和冗余更少；

这种优势并非仅来自并行解码速度，而是体现在 Agent 级别的规划与决策行为上。

一个 " 极端公平 " 的对照实验设计

为了避免 " 框架差异 "、" 提示工程 "、" 数据不一致 " 等干扰因素，作者采用了非常严格的对照实验设置：

使用同一个 Agent 框架：DeepDiver（多智能架构，层级式规划，https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver）；

使用同一套工具接口与解析规则；

使用完全相同的 Agent 任务进行继续训练；

统一context 长度上限（32K）、最大交互轮数、tool call 上限；

唯一变化因素：Agent 背后的生成范式

Autoregressive LLM（AR）：openpangu 7b-v1

Diffusion Large Language Model（DLLM）：openpangu diffusion 7b，这个模型是从 openpangu 7b-v1 续训得到的，模型的基础推理能力相似。

这意味着，实验中观察到的行为差异，不能归因于数据 / 模型的基础能力或 workflow，而只能来自生成范式本身。

不过，考虑到生成范式的不同，针对多轮长链交互的 DLLM 训练，作者使用了针对性调整的 Mask 策略和 Attention 裁剪策略，提升了 DLLM Agent 训练和推理的一致性。

同样的终点，更短的路径

在构建了对照平台后，研究团队将关注点转向了核心指标：即 DLLM 这种生成范式的改变，究竟能在多大程度上提升 Agent 的实战表现？

实验结果证明，DLLM Agent 的优势并非仅仅来自 " 算得快 "，更在于它在复杂规划中" 走得直 "。

1、BrowseComp-zh 基准测试：效率的全面跨越

研究团队在包含 110 条任务的 BrowseComp-zh（中文多轮 Web 浏览）子集上，完成了性能测试。

通过对海量测试结果的深度复盘，研究人员观察到了几个关键规律：

DLLM Agent 在准确率持平的情况下，

平均工具调用次数显著减少；

Agent 轨迹平均更短；

端到端延迟下降约 30%。

但同时也暴露出一个现实问题：原生 DLLM 更容易产生结构化 tool-call 错误。

此外，作者还展示了 DLLM Agent 和 AR Agent 在 Information Seeker 完成问题上的分布，可以清晰地看到 DLLM Agent 在处理问题时，往往能以更少的交互次数完成同样的任务。

2、案例实录：8.18 倍速度落差的背后

为了更直观地展现这种 " 走直路 " 的能力，可以看一个典型的多约束检索案例（涉及动物命名 + 中国互联网公司 + 团队合并 + 软硬件等多个维度），query 如下：

结果发现，尽管 AR Agent 和 DLLM Agent 最终都给出了正确答案，但其执行逻辑却展现出巨大的差异，不仅表现在端到端有 8.18 × 的速度差异上（如下表）：

也表现在具体的 planner 执行过程上——

DLLM Agent 的 planner 质量更高，从而在部分 case 上表现出来远超过基础模型的效率差异的端到端性能收益。

DLLM 为何是天生的 " 强 Planner"？

论文并未停留在表面的数据对比，而是深入分析了 entropy 和 confidence 与扩散过程中的内部动态，试图从生成范式的底层原理，来解释 DLLM 为何在规划上更具优势。

一、Planner Agent：先全局、后细节

在任务拆解阶段，DLLM Planner 表现出独特的两阶段特征，这与人类先构思大纲再填补内容的思维方式不谋而合：

阶段一：并行提取关键信息

用户问题中的 4 个核心约束，往往在1 – 2 个 diffusion step 内就能被同时识别。

阶段二：逐步细化任务结构

在已有全局框架下，再逐步补充具体的逻辑细节。

这与 AR 的差异，主要体现在：

AR 必须按 token 顺序 " 边想边写 "；

一旦早期判断偏差，往往只能通过多轮 todo/re-plan/verification来修正。

这也直接解释了，为什么 AR Agent 在实验中更容易产生多个 todo_v1/todo_v2 冗余规划文档的原因。下图详细解释了 planner 在这个过程中的变化：

二、Information Seeker：先定方向，再填参数

在具体的工具调用阶段，DLLM 的生成模式呈现出一种极其稳定的结构化倾向：

它会首先确定调用哪个工具；

随后，并行生成参数与细节；

整个 tool-call 被视为一个整体 " 动作块 "，并在生成过程中被反复 refinement。

相比之下，AR Agent 的生成过程更像是一条不可回头的流水线：函数名→参数 1 →参数 2 → …

一旦前面的 token 出现语法或逻辑错误，AR 无法原地修正，只能寄希望于下一轮 tool call 来补救。

三、注意力演化：确定性的迅速锁定

研究团队通过对扩散过程中 Mask Token 的熵（Entropy）演化，以及不同阶段 Attention 的集中与分散的分析，得出了更深层的结论：

在 DLLM 的生成过程中，高不确定性集中在决策的早期阶段；

一旦高层决策形成，后续细节的生成会表现出极高的收敛速度；

attention 机制呈现出更明显的" 全局 → 局部 "协调模式，这与 AR 仅仅追求 token-level 的局部最优决策，形成了鲜明对比。

不过，作者并没有回避 DLLM 的不足之处——

Diffusion 模型在处理 Agent 场景时，对结构化输出更敏感。

通过设计训推一致的 Mask 策略与 Attention 策略（如 context-clean corruption 和 span-aware attention mask），可以提升 DLLM Agent 的推理性能。

这意味着，要充分发挥 DLLM 的潜力，并不能将其作为 AR 的简单替代品，而需要针对 Agent 的交互场景，重新对齐接口与训练目标。

生成范式重塑 Agent 设计维度

这项工作为 Agent 研究提供了一个全新的视角——

生成范式本身，会深刻塑造 Agent 的行为方式。

在完全相同的数据基底与技术框架下，DLLM Agent 展现出了超越传统自回归模型的执行效率：

更早形成全局计划

更少走弯路

更快速度结束任务

这使得 Diffusion 不再只是 " 另一种生成模型 "，而成为构建高效 Agent 的一个全新设计维度。

下方 Demo 直观展示了 DLLM Agent 在效率上的显著优势（同类对比示例可参考原论文中的 Case1）：

* 本文系量子位获授权刊载，观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

点亮星标

科技前沿进展每日见

宙世代

一起剪

相关标签