何恺明首个语言模型：105M参数，不走GPT自回归老路

何恺明，也下场做语言模型了。

只不过，这次他带队做的不是大家熟悉的、像 ChatGPT 背后那套" 预测下一个词元 "（next token prediction）的自回归范式。

而是另一条过去几年在图像领域大火、如今正被越来越多人搬进文本生成的新路线：扩散语言模型（Diffusion Language Model，DLM）。

在最新的论文中，何恺明团队放出全新连续扩散语言模型：ELF：Embedded Language Flows。

与不少还停留在 token 层面做扩散的语言模型不同，ELF 把整个生成过程都留在了连续的 embedding 空间里，直到最后一步，才重新离散化，将表示变回 token。

靠着这套设计，ELF 只用了 105M 参数、45B 训练 token、32 步采样，就正面跑赢了一批主流扩散语言模型。

最直观的一项指标是它在 OpenWebText 上，把生成困惑度（Generative Perplexity）直接压到了 24。

这里简单科普一下生成困惑度，它本质上是让一个强大的语言模型，给生成结果 " 检查作业 "，看看这些文本到底像不像真实人类写出来的语料——

值越低，说明生成质量越高、模型出来的东西也就越没 AI 味儿，越自然。

在和主流扩散语言模型的对比中，ELF 在训练 token 少近 10 倍、采样步数更少的情况下，反而拿到了更低的生成困惑度。

可以说，在过去很长一段时间里，扩散语言模型的进展，几乎都发生在离散 DLM（Discrete DLM）这一侧。

而 ELF 第一次证明了一件事：连续的方法，不但能跑，而且效果不错。

ELF 到底做了什么

要理解 ELF，先得理解扩散语言模型现在到底在做什么。

扩散语言模型，主要有两种技术路线。一是以 MDLM、Duo 为代表的离散派，直接在 token 空间做扩散，每一步处理的是离散随机变量。

二是包括 Diffusion-LM、CDCD、DiffuSeq 在内的连续派，把 token 映成连续 embedding，在连续空间里去噪。

此前的研究中，像 MDLM、LLaDA、Dream 7B 这些离散路线占据了上风。原因是很简单，因为语言本身就是离散的。

对于这一看似常识的理解，恺明团队给出的判断恰恰相反——

问题可能不是 " 语言必须离散 "，问题可能是：前人根本没有让连续路线，连续到底。

Diffusion-LM 这一类的方法虽然在 embedding 空间去噪，但每一步都要算一次 token-level 的交叉熵，把连续轨迹一路绑在词表上。

后来的 LD4LG、Cosmos 走 latent diffusion 路线，去噪过程是连续了，但要单独训一个 decoder 把 latent 解回 token，相当于多一个模块。

基于此，ELF把所有 denoising，全留在 continuous embedding space；直到最后一步 t=1，才重新投回 token。

具体来说，ELF 在训练时，离散 token 先被编码成连续 embedding，再加噪成 z_t，模型要么负责把它还原成干净 embedding（MSE），要么直接预测 token（CE）。

推理时，模型从高斯噪声 z_0 出发，一路在连续空间里去噪，直到最后一步，才切到 decode 模式，把 embedding 重新投回 token。

ELF 第一次把" 连续表示 " 和 " 离散输出 "这两个过去总被认为必须反复对齐的问题，彻底拆开了：

中间的去噪，完全交给连续空间；最终的语言生成，只留到最后一步离散化。

没有每一步都往词表上硬对齐，也不需要额外训练一个 decoder，整个生成流程第一次真正做到了：

连续就是连续，离散就是离散。

而这，恰恰也是 ELF 后面能用更少采样步数、更少训练 token，却跑赢一众扩散语言模型的关键。

ELF 不是 " 先扩散，再解码 "。

在具体的实现上，ELF 还解决了三个问题：

token 怎么变连续？连续里怎么去噪？最后又怎么变回 token？

把 token 变成连续 embedding

要把连续扩散用在语言上，第一步，得先把离散的 token 变成连续表示。

论文中，ELF 先把它切成 token 序列，再映射到连续 embedding 空间。这里具体怎么映射，其实有多种选择。

默认情况下，ELF 用的是 T5 预训练 encoder，生成双向的 contextual embedding。论文后面也测试了 jointly trained embedding 和随机 embedding 等不同方案。

值得注意的是，这个 encoder只在训练阶段使用，推理时并不会额外增加模块。

在连续 embedding 空间里做 Flow Matching

拿到连续表示之后，ELF 就在 embedding 空间里做 Flow Matching。

简单说，Flow Matching 定义了一条从噪声到真实数据的连续流动轨迹：

t=0 时，是高斯噪声；

t=1 时，是干净的 embedding；

中间所有状态，都是两者的线性插值，也就是论文里的 rectified flow。

在传统 Flow Matching，网络通常直接预测 " 速度场 " v。

但 ELF 没有这么做，而是沿用了恺明团队半年前在《Back to Basics: Let Denoising Generative Models Denoise》里提出的思路——

直接预测干净 embedding x，也就是 x-prediction。

训练目标，就是最小化预测 embedding 和真实 embedding 之间的均方误差（MSE）。

至于为什么采用 x-prediction，论文给了两个原因：

第一，它在高维表示上更稳定——比如 768 维甚至更高的 token embedding；第二，它天然和最后一步 " 预测干净 token" 的目标对齐。

论文还特别提到：虽然理论上也可以先预测速度 v，再换算成 x，但这样一来，后面 denoising 和 decoding 之间的权重共享就很难成立。

实验上，他们也发现：一旦共享权重，v-prediction 效果明显变差。

从连续 embedding，再回到离散 token

生成语言，最终输出还是离散 token。

所以 ELF 只在最后一个时间步（t = 1），还得把连续 embedding 重新投回 token 空间。

不过，这一步 ELF 没有像很多 latent diffusion 方法那样，额外训练一个 decoder。相反，它把最后一步直接视作：

一次 continuous-to-discrete decoding。

换句话说：decoder 和前面的 denoiser，其实是同一个网络。

为了让最后一步训练不至于太简单（因为理论上 t → 1 时，输入已经非常接近干净 embedding），ELF 在最后一步额外加入了一次 token-level corruption，构造出一个带扰动的输入。

随后，同一个网络输出 clean embedding，再通过一个可学习的 unembedding 矩阵 W，投影成 token logits。

训练目标，则是标准的 token-level cross-entropy loss。整个网络共享同一套参数，并额外接收一个二值的 mode token：去噪模式 / 解码模式。

推理时，ELF 从高斯噪声开始一路在连续空间里去噪，直到最后一步 t = 1，才切换到 decode 模式，再通过 argmax 输出最终 token。

值得一提的是，在 ELF 中，图像生成里最常用的技术之一，CFG（classifier-free guidance）也被搬过来了

ELF 用 self-conditioning 作为条件信号，套上 training-time CFG（一次 forward 模拟两次推理，没有 inference 开销），把图像那边的方案直接搬了过来。

实验对比

实验部分，ELF 基本回答了一个过去两年一直悬着的问题：

连续扩散语言模型，到底能不能打？答案是：不但能打，而且第一次在质量、速度、训练成本三个维度同时赢。

如开头所说，在 OpenWebText 生成任务中，在不做蒸馏的情况下，ELF 只用 32 步采样，就把生成困惑度压到了 24。

而此前主流的离散扩散模型，往往要跑到 1024 步，才能接近这个水平。

更夸张的是，ELF 实现这一结果时，训练 token 只用了 45B。

而同级别对手，普遍是 500B+。换句话说：采样步数少了一个数量级，训练数据也少了一个数量级，效果反而更好。

而在很多扩散模型最容易掉队的条件生成任务上，ELF 也没掉链子。

无论是 WMT14 机器翻译，还是 XSum 文本摘要，ELF 都稳定超过现有扩散语言模型，甚至把不少自回归 baseline 也压了下去。

论文最后给出的总结其实很克制：ELF 在生成质量、采样效率和训练成本之间，实现了很强的 trade-off。

翻译成人话就是：连续派，不是不能打。只是以前没把连续这件事做到底。

作者介绍

最后，我们再来介绍一下这篇文章的作者。

这篇论文的两篇一作是共同贡献，排名先后顺序由硬币决定。

胡珂雅，她是这篇文章的两位第一作者之一，MIT EECS 一年级博士生，也是恺明在 MIT 带的第一批博士生之一，目前由恺明和Jacob Andreas联合指导。

△图源：胡珂雅个人主页

她本科毕业于上交的 ACM 班，目前的研究兴趣主要是语言和视觉的交叉领域，致力于构建数据效率更高、泛化能力更强的智能体。

值得一提的是，在恺明 MIT 的主页中，胡珂雅排在 Grad students 第一位，可以说是组内的大师姐了。

第二位第一作者Linlu Qiu，同样是 MIT 的博士生，师从Yoon Kim。

△图源：Linlu Qiu 个人主页

她本科毕业于香港大学，硕士毕业于 Georgia Institute of Technology，此前还在 Google 做过 AI Resident。

有意思的是，这并不是她第一次和恺明合作。就在不久前，她还和恺明团队一起拿下了 CVPR 2026 论文《ARC Is a Vision Problem!》，把 ARC 推理问题重新定义成了视觉问题。

另一位作者Hanhong Zhao（赵瀚宏）为 MIT 本科生，他高中就读于人大附中，曾是国际物理奥林匹克竞赛 IPhO 金牌得主。

△图源：math.mit.edu

还有一位作者陆伊炀，背景有点 " 少年班味道 "。

△图源：陆伊炀个人主页

他是清华姚班大二本科生，目前在 MIT 计算机科学与人工智能实验室（CSAIL）实习，导师是何恺明，主要研究方向为计算机视觉和深度生成模型。

高中时期，他是物理竞赛生，曾以江苏选手中第一名、全国第九名的成绩，在 2022 年获得了第三十九届全国中学生物理竞赛（CPhO）金牌。

此前，他以一作身份与恺明合作过论文《Bidirectional Normalizing Flow: From Data to Noise and Back》。

另一位核心作者黎天鸿，则是恺明组的博后。

△图源：黎天鸿个人主页

他本科就读于清华姚班，博士毕业于 MIT，半年前那篇《Back to Basics: Let Denoising Generative Models Denoise》的一作，就是他。

此外，论文的其他作者Yoon Kim、Jacob Andreas，MIT EECS 两位语言模型方向的教授，以及何恺明本人。

参考链接

[ 1 ] https://arxiv.org/pdf/2605.10938

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

中国 AIGC 产业峰会最新嘉宾阵容来了！

从 AI 最新架构到应用生态，从 AI 音乐、AI 漫剧、AI 浏览器再到世界模型、AI 硬件 ... 这一次，我们希望聚齐AI 赛道的实战派，百度、智谱、昆仑万维、模思智能、蚂蚁灵波都会来。了解详情

5 月 20 日，北京 · 金茂万丽酒店，@所有人，马上 AI 起来！

一键关注点亮星标

科技前沿进展每日见