量子位 前天
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

当主流大语言模型还在采用自回归架构时,有人已经盯上了扩散架构。

在本次量子位 MEET2026 智能未来大会上,浙江大学百人计划研究员、博士生导师,蚂蚁集团资深技术专家赵俊博表示:

扩散架构在推理过程中可以直接修改和控制 token,而不需要像自回归模型那样重新生成整段内容。

这意味着,相比自回归模型,扩散模型理论上有望实现更快的生成速度以及更低的计算成本。

基于此,他和团队将重点押注于扩散架构,并致力于探索扩散语言模型独有的 Scaling Law。

而作为这一探索的关键里程碑,他们近期发布并开源了LLaDA 2.0,率先将扩散语言模型做到千亿体量。

赵俊博坦言,该领域在训练与推理层面仍处早期,但发展势头迅猛,已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局。

编者注:就在 MEET2026 智能未来大会结束后,赵俊博和团队也发布了全新的技术报告,揭示了千亿体量扩散语言模型背后的关键技术选择。

报告标题:LLaDA2.0: Scaling Up Diffusion Language Models to 100B

报告链接(github):https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf

为了完整体现赵俊博的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET2026 智能未来大会是由量子位主办的行业峰会,近 30 位产业代表与会讨论。线下到场参会观众近 1500 人,线上直播观众 350 万 +,获得了主流媒体的广泛关注与报道。

核心观点梳理

所有生成模型本质上都是在拟合数据分布。自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并不是唯一的路径。

开源模型 LLaDA 采用扩散语言模型架构,暂不考虑 MoE 的情况下,在相同的计算量和性能目标下,LLaDA 所需的参数规模可以比自回归模型更小。

扩散架构在推理过程中可以直接修改和控制 token,而不需要像自回归模型那样重新生成整段内容。

在计算受限情况下,LLaDA 采用 " 完形填空 " 式预测,相比自回归模型更为 "data-hungry",对数据需求更大、吸收数据更快。

LLaDA 与自回归模型的 Scaling Law 存在差异,已验证 LLaDA 可以扩展到千亿规模,但继续往上会面临新的挑战。

……

以下为赵俊博演讲全文:

押注扩散语言模型的 Scaling Law

大家好,今天我稍微讲点不一样的,来一场技术上的脱口秀。

刚才几位嘉宾已反复提及,目前主流的大语言模型几乎都基于自回归架构构建。但我接下来介绍的,我们最近开源的全新系列模型——架构完全不同

要想了解不同之处何在,先让我们来厘清几个基本概念。

相信大家都很熟悉 Midjourney、Sora、Emu Video 等图像 / 视频赛道的热门模型,实际上,它们里面都有一个非常明确的机制叫扩散

何谓扩散?简单来说就是加噪后再去噪,从噪声中恢复图像。

所有的 Auto-Regressive Model(AR,自回归模型)基本都遵循同一机制——给定前 N 个词,要求模型预测并生成第 N+1 个词,然后基于前 N+1 个词,再去预测第 N+2 个词,依此类推。

而扩散语言模型另辟蹊径,可能有些观众也知道这个东西叫 Masked Diffusion Language Models,我们看一下它的解码过程,简单来说它的机制不是 " 做接龙 ",而是 " 做完形填空 "。

如图所示,给定一句话之后我们会 Mask(遮盖)掉一部分词,再让它恢复,这就非常像我们小时候做的完形填空。

而我们现在要做的,就是 Diffusion Language Model(dLLM,扩散语言模型)的 Scaling Law。

为什么做这件事?其实这是我们的一个赌注。

本质上来说,所有的大模型只要是生成模型,都是对 P ( X ) ,也就是对本身数据分布的拟合。

自回归模型提供了一种拟合方式,它将整体分布拆解为一系列遵循单向因果顺序的条件概率来逐步建模。但这种方式并不是唯一的路径。

下图由新加坡国立大学 SEA AI 研究员Jinjie Ni提供,里面点明了几个非常重要的观点。

第一,在计算受限的情况下,基于 " 完形填空 " 这一方式进行预测的扩散语言模型,比一般的自回归模型需要的数据量更大,即所谓的 "data-hungry",在数据上能吃得更快。

第二,同样是 dense 结构(先不管 MoE),在参数和计算量相同的情况下,其实 dLLM 可以做得比 AR 更小。

所谓的 "Super Data Learners",如果了解图像或视频的扩散模型就会知道,它们有个特点——你可以一直训练

比如我们现在所有的自回归模型,基本上训练到多个 epoch,效果就不再变动,数据也就这样了。

而在同样数据集、同样架构下,红色那条代表 Diffusion 的曲线可以一直训——跟图像领域观测到的现象一致,确实可以一直做训练。

第三是 Diffusion 独有的优势。都知道 CoT(思维链)和 RL(强化学习),或者说见识过 DeepSeek 上的深度思考过程。这个东西我之前做了个比喻,AR 像一个不能带草稿纸的考生:

进了考场之后不允许写提纲,跟下棋一样落子无悔,在解所有题的时候落笔无悔。写下一个 token 就钉死,再写下一个,没有给你任何机会回头修改。中间写错了有一个 CoT 的机制,就好像 " 突然有一个 token 说这个地方好像中间有一步算错了,我再重新开始 "。

实际上这就解释了为什么会有 test-time scaling —— AR 在推理侧的 token efficiency 其实并不高,有一些简单的问题也要推理很久,生成很多 token。

如图所示,我们正在进行的研究叫Editable and Controllable Generation(等待跑通中),是指在 Diffusion 框架下,随时 " 做完形填空 "、随时改;不像 DeepSeek-R1 或 OpenAI-o1 必须整段 token 推倒重来,我们可以直接在推理过程里改 token。

这个东西有大量的工程细节,时间关系我只能简单放一些。

发布并开源千亿规模 dLLM

首先是注意力掩码(Attention Mask)的适配问题。

我们的模型中既包含细粒度的 Block,也包含由 Block 组成的更大区块——区块之间采用自回归的注意力机制(确保序列的总体连贯性),区块内部并行解码(以提升计算效率)。

因此,模型中同时存在两种注意力模式。有些地方用全局 Attention(以捕捉长程依赖),有些地方用 Causal Attention(以维持自回归约束)。

这里头还包括对随机长度序列的处理、集成港大孔令鹏老师提出的几何加权方法,以及实现文本与文档的长序列切分注意力等关键技术。

我们开源了一套训练框架和推理框架,让社区能把我们在 Hugging Face 上发布的模型直接跑起来。其中涉及 5D 并行集成、分区块 Diffusion 下的 Flex-Attention 与 Attention Mask 适配,细节不再展开。

这是我们开源的第一个面向扩散语言模型的训练框架,已支持 SFT(监督微调)与 DPO(直接偏好优化)。

这里我想把整个脉络稍微介绍一下:

中国人民大学文继荣和李崇轩老师团队,率先开源了扩散语言模型 LLaDA 的第一个版本 LLaDA 1.0。

LLaDA 1.0 的研究过程非常痛苦,当时训练和推理框架都很原始,踩坑无数,不过其 8B 版本在 Hugging Face 上零推广就拿到二十几万下载。

这是第一个大规模训练到 80 亿参数的扩散语言模型,效果可对标 LLaMA-3-8B。

后来蚂蚁技术研究院联合人大、浙大、西湖大学把整条线接过来,下重注要把这个领域的一些 " 非共识 " 变成 " 共识 "。

第一件事就是解决架构问题。LLaDA 是一个 dense 模型,而 dense 的痛点大家都提过,比如第一个就是怎么在 Diffusion 的框架里集成 MoE。

今年 9 月,我们发布了 LLaDA-MoE,总参数 7B(激活参数 1B),是全球第一个原生训练出来的 MoE 架构扩散语言模型。

最近一段时间,相关研究几乎已经在全球铺开——谷歌有 Gemini Diffusion、有家美国创业公司在做 Mercury 系列,包括字节也在做。

其最大特点就是一个字:

因为它就是 " 做完形填空 "。比如做一个解码,我先把最后一个 token 解出来,然后再去填中间,这些东西确实是实际解码过程中能看到的。

上上周,我们发布了LLaDA 2.0,率先把扩散语言模型做到千亿体量。踩坑史太长,技术报告已上线,这里就不再展开。

这里有几个视频。

第一个视频表明,在全局注意力机制的支持下,扩散模型在效果上相比自回归模型具备一定优势。

转到 Coding,现在比较神奇的一点是——扩散语言模型在 " 调用 " 和 " 写代码 " 这两个任务上比自回归模型有明显优势。

得益于并行解码,一次能同时吐出几个 token,现场看起来就像你在 Cursor 里按 Tab 自动补全。这些行为全是模型自己学出来的,我们也没完全搞懂为啥。

以及再看文学创作,这个东西比较有意思。看一下这个解码过程,先把开头和结尾的框架定下来,中间部分先写个大概,然后再根据上下文反复修改、润色中间的内容。

这种 " 非共识 " 的解码轨迹,在 Gemini、OpenAI 等任何原生 App 里都看不到。

接下来的一两个月,我们会联合 ZenMux(一站式模型接入平台)放出部分 API,体量虽还比不过主流大模型,但社区已在慢慢长大。

dLLM 的训练推理仍处于早期发展阶段

最后用一点时间聊下推理。

10 月份左右,我们发布了一个带有试验性质的推理引擎dInfer

通过新的模型架构与范式,若能将关键场景的 TPS 推上千量级,实现五倍乃至更高的速度提升,其体验将是革命性的。

回头看,Data/Parameter   Scaling Law 已不新鲜,去年 9 月 OpenAI 又带出 testing-time   Scaling Law。

接下来会不会出现 Diffusion   Scaling Law?

今天没人能给出答案。唯一确定的是,dLLM 与 AR 的 Scaling Law 有很大区别,继续扩展下去也会面临新的挑战。

但不管怎样,我们会在这条路上继续走下去。在我看来,AR 发展了三年(从 ChatGPT 出来之后发展了三年),dLLM 的训推生态才刚起步,希望社区一起下场共建,谢谢。

ps:点击【阅读原文】即可获取 LLaDA 2.0 最新技术报告 ~

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—    —

点亮星标

科技前沿进展每日见

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

浙江大学 谷歌 蚂蚁集团 量子位 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论