驱动之家 06-11
150 tokens/s!NVIDIA为谷歌DiffusionGemma提供首日支持:RTX/DGX全系可用
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

快科技 6 月 11 日消息,NVIDIA 宣布为谷歌 DeepMind 最新发布的开放模型 DiffusionGemma 提供首日支持,覆盖 GeForce RTX GPU、RTX PRO 平台和 DGX 系统全系列。

DiffusionGemma 基于 Gemma 4 架构,总参数 25.2 亿,推理时仅激活 3.8 亿参数,支持 256K 上下文长度,并针对 NVIDIA 硬件深度优化。。

与传统自回归模型逐个生成 token 不同,它采用文本扩散架构,每步可并行去噪 256 个 tokens,在 NVIDIA GPU 上速度提升约 4 倍。

性能方面,NVIDIA 通过 Tensor Core 架构和 CUDA 软件栈实现了无需额外调优即可获得优异性能。单块 H100 GPU 可达每秒 1000 token,在 DGX Spark 上达 150 tokens/s。

该模型支持 BF16/NVFP4 精度格式,开发者可通过 Hugging Face Transformers 在 RTX 5090 或 DGX Spark 上快速原型验证,生产环境可使用 vLLM 进行部署。

该模型采用 Apache 2.0 许可证开源,支持文本与图像多模态输入,支持完全运行于本地 RTX 或 DGX 平台,无需联网、无需按 token 付费。

目前已在 Hugging Face Transformers、vLLM、Unsloth 等框架中获得初始支持。

对于 Windows 开发者,RTX 5090 用户可立即下载体验;专业级用户则可选用 RTX PRO 6000 工作站或 DGX Station 完成大规模部署和微调任务。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

nvidia 谷歌 windows spark 开源
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论