驱动之家 昨天
150 tokens/s!NVIDIA为谷歌DiffusionGemma提供首日支持:RTX/DGX全系可用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

快科技 6 月 11 日消息,NVIDIA 宣布为谷歌 DeepMind 最新发布的开放模型 DiffusionGemma 提供首日支持,覆盖 GeForce RTX GPU、RTX PRO 平台和 DGX 系统全系列。

DiffusionGemma 基于 Gemma 4 架构,总参数 25.2 亿,推理时仅激活 3.8 亿参数,支持 256K 上下文长度,并针对 NVIDIA 硬件深度优化。。

与传统自回归模型逐个生成 token 不同,它采用文本扩散架构,每步可并行去噪 256 个 tokens,在 NVIDIA GPU 上速度提升约 4 倍。

性能方面,NVIDIA 通过 Tensor Core 架构和 CUDA 软件栈实现了无需额外调优即可获得优异性能。单块 H100 GPU 可达每秒 1000 token,在 DGX Spark 上达 150 tokens/s。

该模型支持 BF16/NVFP4 精度格式,开发者可通过 Hugging Face Transformers 在 RTX 5090 或 DGX Spark 上快速原型验证,生产环境可使用 vLLM 进行部署。

该模型采用 Apache 2.0 许可证开源,支持文本与图像多模态输入,支持完全运行于本地 RTX 或 DGX 平台,无需联网、无需按 token 付费。

目前已在 Hugging Face Transformers、vLLM、Unsloth 等框架中获得初始支持。

对于 Windows 开发者,RTX 5090 用户可立即下载体验;专业级用户则可选用 RTX PRO 6000 工作站或 DGX Station 完成大规模部署和微调任务。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:红茶

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

nvidia 谷歌 windows spark 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论