150 tokens/s！NVIDIA为谷歌DiffusionGemma提供首日支持：RTX/DGX全系可用

快科技 6 月 11 日消息，NVIDIA 宣布为谷歌 DeepMind 最新发布的开放模型 DiffusionGemma 提供首日支持，覆盖 GeForce RTX GPU、RTX PRO 平台和 DGX 系统全系列。

DiffusionGemma 基于 Gemma 4 架构，总参数 25.2 亿，推理时仅激活 3.8 亿参数，支持 256K 上下文长度，并针对 NVIDIA 硬件深度优化。。

与传统自回归模型逐个生成 token 不同，它采用文本扩散架构，每步可并行去噪 256 个 tokens，在 NVIDIA GPU 上速度提升约 4 倍。

性能方面，NVIDIA 通过 Tensor Core 架构和 CUDA 软件栈实现了无需额外调优即可获得优异性能。单块 H100 GPU 可达每秒 1000 token，在 DGX Spark 上达 150 tokens/s。

该模型支持 BF16/NVFP4 精度格式，开发者可通过 Hugging Face Transformers 在 RTX 5090 或 DGX Spark 上快速原型验证，生产环境可使用 vLLM 进行部署。

该模型采用 Apache 2.0 许可证开源，支持文本与图像多模态输入，支持完全运行于本地 RTX 或 DGX 平台，无需联网、无需按 token 付费。

目前已在 Hugging Face Transformers、vLLM、Unsloth 等框架中获得初始支持。

对于 Windows 开发者，RTX 5090 用户可立即下载体验；专业级用户则可选用 RTX PRO 6000 工作站或 DGX Station 完成大规模部署和微调任务。

宙世代