每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

智东西

编译 | 刘煜

编辑 | 陈骏达

智东西 6 月 11 日消息，今天凌晨，谷歌 DeepMind 推出一款探索文本扩散（text diffusion）技术的开放实验模型 DiffusionGemma。这款模型基于 Apache 2.0 许可协议发布，是 260 亿参数的混合专家（MoE）模型，能够一次性生成整段文本，在 GPU 上文本生成速度最高可达自回归 LLM 的 4 倍。

DeepMind 官宣（图源：X）

DeepMind 还联合英伟达完成了全硬件栈优化，DiffusionGemma 可适配消费级硬件（已针对 GeForce RTX 5090、4090 显卡完成量化适配），同时在企业级设备上也能发挥性能。

无论是搭载 Hopper 架构、Blackwell 架构并支持 NVFP4 内核的设备，还是面向本地桌面部署的英伟达 DGX Spark、DGX Station，以及面向 AI 专业人员的 RTX PRO 系列产品，都能流畅运行 DiffusionGemma。

值得一提的是，该模型原生支持 NVFP4 技术，能够在几乎不损失生成精度的前提下，大幅提升计算吞吐量，进一步提速整体运行效率。

模型权重：

DiffusionGemma 26B 指令微调版（A4B ‑ it）：

https://huggingface.co/google/diffusiongemma-26B-A4B-it

框架地址：

Hugging Face Transformers：

https://github.com/huggingface/transformers

一、DiffusionGemma 速度占优，生成质量不及 Gemma 4

DeepMind 称，尽管自回归模型的生成质量相对较高，但如果用户想要一边写、一边实时补全、或者来回修改，模型可能要重新生成一整段，响应速度不够快。同时，不少开发实时交互式 AI 应用的开发者，也常常会面临本地推理带来的延迟问题。

自回归语言模型的工作原理类似打字机，从左至右逐一生成 token。在云端场景中，服务端可批量处理数千条用户请求、分摊硬件负载，因此该模式具备较高效率。

但当模型在本地为单一用户运行时，这种逐词生成的方式会造成专用 GPU 或 TPU 利用率低下，硬件大部分时间都处于等待下一个 " 输入字符 " 的空闲状态。

不少研发团队在思考如何从模型架构层面提高推理速度，而扩散模型架构被认为是颇有潜力的一个方向。业界对其进行了长期研究，但要把这项技术用在大模型上一直困难重重。

具体而言，扩散模型的计算成本高，长文本的生成质量也难以保证，其对离得近的信息敏感，对远距离信息容易忽略，以致对长上下文理解存在局限，要在不牺牲质量、不烧掉太多算力的前提下把它做大、做稳定，长期以来缺乏有效的工程方案。

DeepMind 此次推出 DiffusionGemma 正是为了改变了这一现状，它的核心思路是重新设计模型调用硬件的方式。

DiffusionGemma 依托 Gemma 4 系列模型的单位参数性能，结合 Gemini Diffusion 相关研究打造，同时搭载全新的 diffusion head（扩散输出头），能突破传统自回归 LLM 逐个 token 串行处理的模式，以最大化提升文本生成速度。

DiffusionGemma 没有进行串行逐词预测，而是一次性生成包含 256 个 token 的完整文本段落。其一次性向处理器分配更大的计算任务，能够让硬件算力得到充分利用。这一特性在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中有一定优势。

这款模型推理模式由此从单台串行工作的打字机，升级为可一次性输出整段文本的大型印刷设备。

不止如此，该模型推理阶段仅激活 38 亿参数，经过量化处理后，可流畅运行在高端消费级专用显卡 18GB 显存的硬件限制内。

DiffusionGemma 的文本扩散技术，其原理与 AI 图像生成模型相似。图像模型从随机噪点开始，迭代优化最终生成清晰画面，DiffusionGemma 则将这套逻辑应用于文本生成中。

首先，DiffusionGemma 会先生成一组随机的占位 token，作为文本生成的初始基底。随后该模型会进行多轮迭代计算，先锁定已经生成准确的 token 内容，再将这些有效信息作为上下文依据，持续修正和优化剩余文本。

如下所示，经过层层打磨后，该模型生成的整体内容不断收敛优化，最终形成通顺、完整、可直接使用的文本结果。

此外，在生成文本的全过程中，该模型能够同步处理整段内容，由此衍生出新的实用能力，比如精准补全复杂的 Markdown 格式，或是近乎实时地生成并渲染代码等。

二、能生成 3D SVG 图形，支持开发者微调优化

DiffusionGemma 能直击本地推理带来延迟问题这一痛点，不过它也并非十全十美。以下是该款模型的功能特点：

首先是极速推理。DiffusionGemma 将解码瓶颈从内存带宽转移至计算单元，在专用 GPU 上 token 输出速度实现提升。例如，其在单张英伟达 H100 的生成速度可达每秒 1000 个 token 以上，在 GeForce RTX 5090 的生成速度可达每秒 700 个 token 以上。

第二点则是智能自纠错。该模型会迭代优化输出内容，可一次性对整段文本进行校验，实时修正错误。

不止如此，该模型不局限于纯文本创作，还能理解文字语义、输出图形相关内容，可根据文字描述生成 3D SVG 图形。这一生成过程如下图所示，Hugging Face 制作了演示样例，直观呈现了 DiffusionGemma 根据文字描述生成图形的全过程。

同时，开发者还可通过微调进一步提升 DiffusionGemma 在特定任务中的表现。

如下图所示，大模型高效微调开源框架 Unsloth 对 DiffusionGemma 进行数独任务微调，数独任务中每个 token 都与后续 token 存在关联，自回归模型处理该任务难度较大，而 DiffusionGemma 的双向注意力机制则能降低处理难度。

DiffusionGemma 面向追求高速、本地实时交互的研究人员与开发者设计，适用于各类对速度敏感的交互式本地工作场景，例如行内编辑、内容快速迭代以及非线性文本结构生成等。

不过，DiffusionGemma 主打的提速优势主要体现在本地部署及低并发推理场景。这种 " 快 " 不是所有场景都试用，尤其不适合高并发云端服务。

在高查询量（QPS）的云端服务场景中，自回归模型可充分榨取计算资源，DiffusionGemma 的并行解码优势会不断弱化，还可能推高服务成本。

综合来看，DiffusionGemma 的吞吐性能优势，在单张加速卡、中小批次任务的场景下最为突出。也就是说，个人开发者、小团队在本地跑实验的场景，使用 DiffusionGemma 能最大程度发挥其性能优势。

如下图所示，由于 DiffusionGemma 优先兼顾生成速度与并行输出架构，单请求生成 token 的速度约为 Gemma 4 的 3.65 倍，但整体输出质量不及 Gemma 4。对于追求极致生成质量的应用场景，DeepMind 建议用户继续使用标准版 Gemma 4。

结语：聚焦端侧提速需求，探索文本生成新路径

DiffusionGemma 的推出，并不意味着文本扩散模型将立即取代当前主流的自回归大模型。至少在生成质量、云端高并发部署效率等方面，自回归架构依然占据主导地位。

但 DiffusionGemma 展示了另一种可能。在本地推理、实时交互和低并发场景下，通过改变文本生成方式，该模型可以突破传统逐 token 解码带来的速度限制。

随着端侧 AI 和本地部署需求持续增长，如何在生成质量、推理速度与硬件成本之间取得平衡，正成为大模型发展的重要方向。DiffusionGemma 更像是一次针对这一问题的前沿探索，其最终价值仍有待开发者社区和实际应用场景进一步验证。

来源：谷歌官网

智东西