快科技 6 月 11 日消息,NVIDIA 宣布为谷歌 DeepMind 最新发布的开放模型 DiffusionGemma 提供首日支持,覆盖 GeForce RTX GPU、RTX PRO 平台和 DGX 系统全系列。
DiffusionGemma 基于 Gemma 4 架构,总参数 25.2 亿,推理时仅激活 3.8 亿参数,支持 256K 上下文长度,并针对 NVIDIA 硬件深度优化。。

与传统自回归模型逐个生成 token 不同,它采用文本扩散架构,每步可并行去噪 256 个 tokens,在 NVIDIA GPU 上速度提升约 4 倍。
性能方面,NVIDIA 通过 Tensor Core 架构和 CUDA 软件栈实现了无需额外调优即可获得优异性能。单块 H100 GPU 可达每秒 1000 token,在 DGX Spark 上达 150 tokens/s。
该模型支持 BF16/NVFP4 精度格式,开发者可通过 Hugging Face Transformers 在 RTX 5090 或 DGX Spark 上快速原型验证,生产环境可使用 vLLM 进行部署。
该模型采用 Apache 2.0 许可证开源,支持文本与图像多模态输入,支持完全运行于本地 RTX 或 DGX 平台,无需联网、无需按 token 付费。
目前已在 Hugging Face Transformers、vLLM、Unsloth 等框架中获得初始支持。
对于 Windows 开发者,RTX 5090 用户可立即下载体验;专业级用户则可选用 RTX PRO 6000 工作站或 DGX Station 完成大规模部署和微调任务。

【本文结束】如需转载请务必注明出处:快科技
责任编辑:红茶


登录后才可以发布评论哦
打开小程序可以发布评论哦