量子位 02-10
华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

大模型通往现实世界的 " 最后三公里 ",Agent 已然成为最具代表性的入场券。

但当下的共识发生了微妙的变化:

衡量一个 Agent 够不够强,早已不再看它能不能 " 答对问题 ",而是看它在面对多轮推理、工具调用及复杂协作时,能否用最短的路径、最少的交互预算,稳定地搞定任务

在这一背景下,一个长期被行业忽视的底层命题浮出水面:

当 Agent 的框架、工具、数据和训练方式都保持一致时,仅仅改变语言模型的生成范式(Autoregressive vs Diffusion),是否会系统性地改变 Agent 的规划与行为模式?

近日,来自华为诺亚方舟实验室、华为先进计算与存储实验室、UCL、南洋理工大学、清华大学和北京大学的研究团队,在最新工作《DLLM Agent: See Farther, Run Faster》中,对这一问题给出了迄今为止最 " 对照实验式 " 的回答。

他们发现,仅仅是把 " 底座 " 换成了扩散式大模型(DLLM),Agent 就像突然开了 " 上帝视角 ",执行速度不仅提升了30% 以上,甚至在部分复杂任务中跑出了8 倍于传统 AR 模型的效率。

文章链接:

https://arxiv.org/pdf/2602.07451

官方网页:

https://noah-dllm.github.io/

核心结论一览

在完全相同的 Agent 工作流、训练数据和交互预算下,研究发现:

在准确率基本持平的前提下,DLLM Agent 端到端执行速度平均提升 30% 以上

在成功解题的条件下,DLLM Agent 使用更少的交互轮次和工具调用

DLLM 展现出更强的 planner 能力:更早收敛到正确轨迹、回溯和冗余更少;

这种优势并非仅来自并行解码速度,而是体现在 Agent 级别的规划与决策行为上。

一个 " 极端公平 " 的对照实验设计

为了避免 " 框架差异 "、" 提示工程 "、" 数据不一致 " 等干扰因素,作者采用了非常严格的对照实验设置:

使用同一个 Agent 框架:DeepDiver(多智能架构,层级式规划,https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver);

使用同一套工具接口与解析规则

使用完全相同的 Agent 任务进行继续训练;

统一context 长度上限(32K)、最大交互轮数、tool call 上限

唯一变化因素:Agent 背后的生成范式

Autoregressive LLM(AR):openpangu 7b-v1

Diffusion Large Language Model(DLLM):openpangu diffusion 7b,这个模型是从 openpangu 7b-v1 续训得到的,模型的基础推理能力相似。

这意味着,实验中观察到的行为差异,不能归因于数据 / 模型的基础能力或 workflow,而只能来自生成范式本身。

不过,考虑到生成范式的不同,针对多轮长链交互的 DLLM 训练,作者使用了针对性调整的 Mask 策略和 Attention 裁剪策略,提升了 DLLM Agent 训练和推理的一致性。

同样的终点,更短的路径

在构建了对照平台后,研究团队将关注点转向了核心指标:即 DLLM 这种生成范式的改变,究竟能在多大程度上提升 Agent 的实战表现?

实验结果证明,DLLM Agent 的优势并非仅仅来自 " 算得快 ",更在于它在复杂规划中" 走得直 "

1、BrowseComp-zh 基准测试:效率的全面跨越

研究团队在包含 110 条任务的 BrowseComp-zh(中文多轮 Web 浏览)子集上,完成了性能测试。

通过对海量测试结果的深度复盘,研究人员观察到了几个关键规律:

DLLM Agent 在准确率持平的情况下,

平均工具调用次数显著减少;

Agent 轨迹平均更短;

端到端延迟下降约 30%。

但同时也暴露出一个现实问题:原生 DLLM 更容易产生结构化 tool-call 错误。

此外,作者还展示了 DLLM Agent 和 AR Agent 在 Information Seeker 完成问题上的分布,可以清晰地看到 DLLM Agent 在处理问题时,往往能以更少的交互次数完成同样的任务。

2、案例实录:8.18 倍速度落差的背后

为了更直观地展现这种 " 走直路 " 的能力,可以看一个典型的多约束检索案例(涉及动物命名 + 中国互联网公司 + 团队合并 + 软硬件等多个维度),query 如下:

结果发现,尽管 AR Agent 和 DLLM Agent 最终都给出了正确答案,但其执行逻辑却展现出巨大的差异,不仅表现在端到端有 8.18 × 的速度差异上(如下表):

也表现在具体的 planner 执行过程上——

DLLM Agent 的 planner 质量更高,从而在部分 case 上表现出来远超过基础模型的效率差异的端到端性能收益。

DLLM 为何是天生的 " 强 Planner"?

论文并未停留在表面的数据对比,而是深入分析了 entropy 和 confidence 与扩散过程中的内部动态,试图从生成范式的底层原理,来解释 DLLM 为何在规划上更具优势。

一、Planner Agent:先全局、后细节

在任务拆解阶段,DLLM Planner 表现出独特的两阶段特征,这与人类先构思大纲再填补内容的思维方式不谋而合:

阶段一:并行提取关键信息

用户问题中的 4 个核心约束,往往在1 – 2 个 diffusion step 内就能被同时识别。

阶段二:逐步细化任务结构

在已有全局框架下,再逐步补充具体的逻辑细节。

这与 AR 的差异,主要体现在:

AR 必须按 token 顺序 " 边想边写 ";

一旦早期判断偏差,往往只能通过多轮 todo/re-plan/verification来修正。

这也直接解释了,为什么 AR Agent 在实验中更容易产生多个 todo_v1/todo_v2 冗余规划文档的原因。下图详细解释了 planner 在这个过程中的变化:

二、Information Seeker:先定方向,再填参数

在具体的工具调用阶段,DLLM 的生成模式呈现出一种极其稳定的结构化倾向:

它会首先确定调用哪个工具;

随后,并行生成参数与细节;

整个 tool-call 被视为一个整体 " 动作块 ",并在生成过程中被反复 refinement。

相比之下,AR Agent 的生成过程更像是一条不可回头的流水线:函数名→参数 1 →参数 2 → …

一旦前面的 token 出现语法或逻辑错误,AR 无法原地修正,只能寄希望于下一轮 tool call 来补救

三、注意力演化:确定性的迅速锁定

研究团队通过对扩散过程中 Mask Token 的熵(Entropy)演化,以及不同阶段 Attention 的集中与分散的分析,得出了更深层的结论:

在 DLLM 的生成过程中,高不确定性集中在决策的早期阶段

一旦高层决策形成,后续细节的生成会表现出极高的收敛速度

attention 机制呈现出更明显的" 全局 → 局部 "协调模式,这与 AR 仅仅追求 token-level 的局部最优决策,形成了鲜明对比。

不过,作者并没有回避 DLLM 的不足之处——

Diffusion 模型在处理 Agent 场景时,对结构化输出更敏感。

通过设计训推一致的 Mask 策略与 Attention 策略(如 context-clean corruption 和 span-aware attention mask),可以提升 DLLM Agent 的推理性能。

这意味着,要充分发挥 DLLM 的潜力,并不能将其作为 AR 的简单替代品,而需要针对 Agent 的交互场景,重新对齐接口与训练目标

生成范式重塑 Agent 设计维度

这项工作为 Agent 研究提供了一个全新的视角——

生成范式本身,会深刻塑造 Agent 的行为方式。

在完全相同的数据基底与技术框架下,DLLM Agent 展现出了超越传统自回归模型的执行效率:

更早形成全局计划

更少走弯路

更快速度结束任务

这使得 Diffusion 不再只是 " 另一种生成模型 ",而成为构建高效 Agent 的一个全新设计维度。

下方 Demo 直观展示了 DLLM Agent 在效率上的显著优势(同类对比示例可参考原论文中的 Case1):

* 本文系量子位获授权刊载,观点仅为原作者所有。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

华为 北京大学 浮出水面 南洋理工大学
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论