
智东西
编译 | 刘煜
编辑 | 陈骏达
智东西 6 月 11 日消息,今天凌晨,谷歌 DeepMind 推出一款探索文本扩散(text diffusion)技术的开放实验模型 DiffusionGemma。这款模型基于 Apache 2.0 许可协议发布,是 260 亿参数的混合专家(MoE)模型,能够一次性生成整段文本,在 GPU 上文本生成速度最高可达自回归 LLM 的 4 倍。

DeepMind 官宣(图源:X)
DeepMind 还联合英伟达完成了全硬件栈优化,DiffusionGemma 可适配消费级硬件(已针对 GeForce RTX 5090、4090 显卡完成量化适配),同时在企业级设备上也能发挥性能。
无论是搭载 Hopper 架构、Blackwell 架构并支持 NVFP4 内核的设备,还是面向本地桌面部署的英伟达 DGX Spark、DGX Station,以及面向 AI 专业人员的 RTX PRO 系列产品,都能流畅运行 DiffusionGemma。
值得一提的是,该模型原生支持 NVFP4 技术,能够在几乎不损失生成精度的前提下,大幅提升计算吞吐量,进一步提速整体运行效率。
模型权重:
DiffusionGemma 26B 指令微调版(A4B ‑ it):
https://huggingface.co/google/diffusiongemma-26B-A4B-it
框架地址:
Hugging Face Transformers:
https://github.com/huggingface/transformers
一、DiffusionGemma 速度占优,生成质量不及 Gemma 4
DeepMind 称,尽管自回归模型的生成质量相对较高,但如果用户想要一边写、一边实时补全、或者来回修改,模型可能要重新生成一整段,响应速度不够快。同时,不少开发实时交互式 AI 应用的开发者,也常常会面临本地推理带来的延迟问题。
自回归语言模型的工作原理类似打字机,从左至右逐一生成 token。在云端场景中,服务端可批量处理数千条用户请求、分摊硬件负载,因此该模式具备较高效率。
但当模型在本地为单一用户运行时,这种逐词生成的方式会造成专用 GPU 或 TPU 利用率低下,硬件大部分时间都处于等待下一个 " 输入字符 " 的空闲状态。
不少研发团队在思考如何从模型架构层面提高推理速度,而扩散模型架构被认为是颇有潜力的一个方向。业界对其进行了长期研究,但要把这项技术用在大模型上一直困难重重。
具体而言,扩散模型的计算成本高,长文本的生成质量也难以保证,其对离得近的信息敏感,对远距离信息容易忽略,以致对长上下文理解存在局限,要在不牺牲质量、不烧掉太多算力的前提下把它做大、做稳定,长期以来缺乏有效的工程方案。
DeepMind 此次推出 DiffusionGemma 正是为了改变了这一现状,它的核心思路是重新设计模型调用硬件的方式。
DiffusionGemma 依托 Gemma 4 系列模型的单位参数性能,结合 Gemini Diffusion 相关研究打造,同时搭载全新的 diffusion head(扩散输出头),能突破传统自回归 LLM 逐个 token 串行处理的模式,以最大化提升文本生成速度。

DiffusionGemma 没有进行串行逐词预测,而是一次性生成包含 256 个 token 的完整文本段落。其一次性向处理器分配更大的计算任务,能够让硬件算力得到充分利用。这一特性在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中有一定优势。
这款模型推理模式由此从单台串行工作的打字机,升级为可一次性输出整段文本的大型印刷设备。
不止如此,该模型推理阶段仅激活 38 亿参数,经过量化处理后,可流畅运行在高端消费级专用显卡 18GB 显存的硬件限制内。
DiffusionGemma 的文本扩散技术,其原理与 AI 图像生成模型相似。图像模型从随机噪点开始,迭代优化最终生成清晰画面,DiffusionGemma 则将这套逻辑应用于文本生成中。
首先,DiffusionGemma 会先生成一组随机的占位 token,作为文本生成的初始基底。随后该模型会进行多轮迭代计算,先锁定已经生成准确的 token 内容,再将这些有效信息作为上下文依据,持续修正和优化剩余文本。
如下所示,经过层层打磨后,该模型生成的整体内容不断收敛优化,最终形成通顺、完整、可直接使用的文本结果。

此外,在生成文本的全过程中,该模型能够同步处理整段内容,由此衍生出新的实用能力,比如精准补全复杂的 Markdown 格式,或是近乎实时地生成并渲染代码等。
二、能生成 3D SVG 图形,支持开发者微调优化
DiffusionGemma 能直击本地推理带来延迟问题这一痛点,不过它也并非十全十美。以下是该款模型的功能特点:
首先是极速推理。DiffusionGemma 将解码瓶颈从内存带宽转移至计算单元,在专用 GPU 上 token 输出速度实现提升。例如,其在单张英伟达 H100 的生成速度可达每秒 1000 个 token 以上,在 GeForce RTX 5090 的生成速度可达每秒 700 个 token 以上。
第二点则是智能自纠错。该模型会迭代优化输出内容,可一次性对整段文本进行校验,实时修正错误。
不止如此,该模型不局限于纯文本创作,还能理解文字语义、输出图形相关内容,可根据文字描述生成 3D SVG 图形。这一生成过程如下图所示,Hugging Face 制作了演示样例,直观呈现了 DiffusionGemma 根据文字描述生成图形的全过程。

同时,开发者还可通过微调进一步提升 DiffusionGemma 在特定任务中的表现。
如下图所示,大模型高效微调开源框架 Unsloth 对 DiffusionGemma 进行数独任务微调,数独任务中每个 token 都与后续 token 存在关联,自回归模型处理该任务难度较大,而 DiffusionGemma 的双向注意力机制则能降低处理难度。

DiffusionGemma 面向追求高速、本地实时交互的研究人员与开发者设计,适用于各类对速度敏感的交互式本地工作场景,例如行内编辑、内容快速迭代以及非线性文本结构生成等。
不过,DiffusionGemma 主打的提速优势主要体现在本地部署及低并发推理场景。这种 " 快 " 不是所有场景都试用,尤其不适合高并发云端服务。
在高查询量(QPS)的云端服务场景中,自回归模型可充分榨取计算资源,DiffusionGemma 的并行解码优势会不断弱化,还可能推高服务成本。
综合来看,DiffusionGemma 的吞吐性能优势,在单张加速卡、中小批次任务的场景下最为突出。也就是说,个人开发者、小团队在本地跑实验的场景,使用 DiffusionGemma 能最大程度发挥其性能优势。
如下图所示,由于 DiffusionGemma 优先兼顾生成速度与并行输出架构,单请求生成 token 的速度约为 Gemma 4 的 3.65 倍,但整体输出质量不及 Gemma 4。对于追求极致生成质量的应用场景,DeepMind 建议用户继续使用标准版 Gemma 4。

结语:聚焦端侧提速需求,探索文本生成新路径
DiffusionGemma 的推出,并不意味着文本扩散模型将立即取代当前主流的自回归大模型。至少在生成质量、云端高并发部署效率等方面,自回归架构依然占据主导地位。
但 DiffusionGemma 展示了另一种可能。在本地推理、实时交互和低并发场景下,通过改变文本生成方式,该模型可以突破传统逐 token 解码带来的速度限制。
随着端侧 AI 和本地部署需求持续增长,如何在生成质量、推理速度与硬件成本之间取得平衡,正成为大模型发展的重要方向。DiffusionGemma 更像是一次针对这一问题的前沿探索,其最终价值仍有待开发者社区和实际应用场景进一步验证。
来源:谷歌官网

智东西
编译 | 刘煜
编辑 | 陈骏达
智东西 6 月 11 日消息,今天凌晨,谷歌 DeepMind 推出一款探索文本扩散(text diffusion)技术的开放实验模型 DiffusionGemma。这款模型基于 Apache 2.0 许可协议发布,是 260 亿参数的混合专家(MoE)模型,能够一次性生成整段文本,在 GPU 上文本生成速度最高可达自回归 LLM 的 4 倍。

DeepMind 官宣(图源:X)
DeepMind 还联合英伟达完成了全硬件栈优化,DiffusionGemma 可适配消费级硬件(已针对 GeForce RTX 5090、4090 显卡完成量化适配),同时在企业级设备上也能发挥性能。
无论是搭载 Hopper 架构、Blackwell 架构并支持 NVFP4 内核的设备,还是面向本地桌面部署的英伟达 DGX Spark、DGX Station,以及面向 AI 专业人员的 RTX PRO 系列产品,都能流畅运行 DiffusionGemma。
值得一提的是,该模型原生支持 NVFP4 技术,能够在几乎不损失生成精度的前提下,大幅提升计算吞吐量,进一步提速整体运行效率。
模型权重:
DiffusionGemma 26B 指令微调版(A4B ‑ it):
https://huggingface.co/google/diffusiongemma-26B-A4B-it
框架地址:
Hugging Face Transformers:
https://github.com/huggingface/transformers
一、DiffusionGemma 速度占优,生成质量不及 Gemma 4
DeepMind 称,尽管自回归模型的生成质量相对较高,但如果用户想要一边写、一边实时补全、或者来回修改,模型可能要重新生成一整段,响应速度不够快。同时,不少开发实时交互式 AI 应用的开发者,也常常会面临本地推理带来的延迟问题。
自回归语言模型的工作原理类似打字机,从左至右逐一生成 token。在云端场景中,服务端可批量处理数千条用户请求、分摊硬件负载,因此该模式具备较高效率。
但当模型在本地为单一用户运行时,这种逐词生成的方式会造成专用 GPU 或 TPU 利用率低下,硬件大部分时间都处于等待下一个 " 输入字符 " 的空闲状态。
不少研发团队在思考如何从模型架构层面提高推理速度,而扩散模型架构被认为是颇有潜力的一个方向。业界对其进行了长期研究,但要把这项技术用在大模型上一直困难重重。
具体而言,扩散模型的计算成本高,长文本的生成质量也难以保证,其对离得近的信息敏感,对远距离信息容易忽略,以致对长上下文理解存在局限,要在不牺牲质量、不烧掉太多算力的前提下把它做大、做稳定,长期以来缺乏有效的工程方案。
DeepMind 此次推出 DiffusionGemma 正是为了改变了这一现状,它的核心思路是重新设计模型调用硬件的方式。
DiffusionGemma 依托 Gemma 4 系列模型的单位参数性能,结合 Gemini Diffusion 相关研究打造,同时搭载全新的 diffusion head(扩散输出头),能突破传统自回归 LLM 逐个 token 串行处理的模式,以最大化提升文本生成速度。

DiffusionGemma 没有进行串行逐词预测,而是一次性生成包含 256 个 token 的完整文本段落。其一次性向处理器分配更大的计算任务,能够让硬件算力得到充分利用。这一特性在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中有一定优势。
这款模型推理模式由此从单台串行工作的打字机,升级为可一次性输出整段文本的大型印刷设备。
不止如此,该模型推理阶段仅激活 38 亿参数,经过量化处理后,可流畅运行在高端消费级专用显卡 18GB 显存的硬件限制内。
DiffusionGemma 的文本扩散技术,其原理与 AI 图像生成模型相似。图像模型从随机噪点开始,迭代优化最终生成清晰画面,DiffusionGemma 则将这套逻辑应用于文本生成中。
首先,DiffusionGemma 会先生成一组随机的占位 token,作为文本生成的初始基底。随后该模型会进行多轮迭代计算,先锁定已经生成准确的 token 内容,再将这些有效信息作为上下文依据,持续修正和优化剩余文本。
如下所示,经过层层打磨后,该模型生成的整体内容不断收敛优化,最终形成通顺、完整、可直接使用的文本结果。

此外,在生成文本的全过程中,该模型能够同步处理整段内容,由此衍生出新的实用能力,比如精准补全复杂的 Markdown 格式,或是近乎实时地生成并渲染代码等。
二、能生成 3D SVG 图形,支持开发者微调优化
DiffusionGemma 能直击本地推理带来延迟问题这一痛点,不过它也并非十全十美。以下是该款模型的功能特点:
首先是极速推理。DiffusionGemma 将解码瓶颈从内存带宽转移至计算单元,在专用 GPU 上 token 输出速度实现提升。例如,其在单张英伟达 H100 的生成速度可达每秒 1000 个 token 以上,在 GeForce RTX 5090 的生成速度可达每秒 700 个 token 以上。
第二点则是智能自纠错。该模型会迭代优化输出内容,可一次性对整段文本进行校验,实时修正错误。
不止如此,该模型不局限于纯文本创作,还能理解文字语义、输出图形相关内容,可根据文字描述生成 3D SVG 图形。这一生成过程如下图所示,Hugging Face 制作了演示样例,直观呈现了 DiffusionGemma 根据文字描述生成图形的全过程。

同时,开发者还可通过微调进一步提升 DiffusionGemma 在特定任务中的表现。
如下图所示,大模型高效微调开源框架 Unsloth 对 DiffusionGemma 进行数独任务微调,数独任务中每个 token 都与后续 token 存在关联,自回归模型处理该任务难度较大,而 DiffusionGemma 的双向注意力机制则能降低处理难度。

DiffusionGemma 面向追求高速、本地实时交互的研究人员与开发者设计,适用于各类对速度敏感的交互式本地工作场景,例如行内编辑、内容快速迭代以及非线性文本结构生成等。
不过,DiffusionGemma 主打的提速优势主要体现在本地部署及低并发推理场景。这种 " 快 " 不是所有场景都试用,尤其不适合高并发云端服务。
在高查询量(QPS)的云端服务场景中,自回归模型可充分榨取计算资源,DiffusionGemma 的并行解码优势会不断弱化,还可能推高服务成本。
综合来看,DiffusionGemma 的吞吐性能优势,在单张加速卡、中小批次任务的场景下最为突出。也就是说,个人开发者、小团队在本地跑实验的场景,使用 DiffusionGemma 能最大程度发挥其性能优势。
如下图所示,由于 DiffusionGemma 优先兼顾生成速度与并行输出架构,单请求生成 token 的速度约为 Gemma 4 的 3.65 倍,但整体输出质量不及 Gemma 4。对于追求极致生成质量的应用场景,DeepMind 建议用户继续使用标准版 Gemma 4。

结语:聚焦端侧提速需求,探索文本生成新路径
DiffusionGemma 的推出,并不意味着文本扩散模型将立即取代当前主流的自回归大模型。至少在生成质量、云端高并发部署效率等方面,自回归架构依然占据主导地位。
但 DiffusionGemma 展示了另一种可能。在本地推理、实时交互和低并发场景下,通过改变文本生成方式,该模型可以突破传统逐 token 解码带来的速度限制。
随着端侧 AI 和本地部署需求持续增长,如何在生成质量、推理速度与硬件成本之间取得平衡,正成为大模型发展的重要方向。DiffusionGemma 更像是一次针对这一问题的前沿探索,其最终价值仍有待开发者社区和实际应用场景进一步验证。
来源:谷歌官网


登录后才可以发布评论哦
打开小程序可以发布评论哦