返回热力追踪
关注Model Opensource

英伟达完成谷歌DiffusionGemma硬件优化 实现高吞吐量并行文本生成

谷歌DeepMind推出的DiffusionGemma基于Gemma 4架构,支持多模态,采用扩散去噪并行生成tokens。英伟达对该模型做了专属硬件优化,生成速度快于传统逐Token生成方案,可支持实时AI类应用部署。

编辑视角

该优化解决了实时AI应用的生成速度瓶颈,为开发者提供可落地的高吞吐量文本生成方案,对部署实时AI服务的开发者具备较高参考价值。

深度解读

本次是英伟达官方博客发布针对谷歌DeepMind开源DiffusionGemma的NVIDIA硬件优化方案。该模型采用扩散式去噪并行生成Token,相比传统逐Token生成速度更快,支持文本图像多模态,基于Gemma 4 26B A4B MoE架构,为实时AI应用开发者提供了就绪方案。边界:现有公开信息仅披露优化方向与核心优势,未放出具体性能benchmark对比数据,也未明确说明该优化是否覆盖全系列NVIDIA硬件,暂未披露大规模落地应用案例,本次仅为开发者方案发布。后续可关注具体性能数据、开发者采用情况以及更多硬件平台的适配进展。

核心要点
  • 谷歌DeepMind的DiffusionGemma基于Gemma 4 26B MoE架构,支持多模态
  • DiffusionGemma采用并行扩散去噪生成,速度优于传统逐Token方案
  • 英伟达完成该模型硬件优化,推出面向开发者的就绪方案
延伸阅读
  • NVIDIA Accelerates Google DeepMind’s DiffusionGemma for Local AI补充说明英伟达对DiffusionGemma的加速背景
  • Gemma-4-26B-A4B-it-GGUF部署教程:RTX 4090 D一键启动MoE大模型WebUI提供Gemma 4系列MoE模型NVIDIA部署参考
英伟达完成谷歌DiffusionGemma硬件优化 实现高吞吐量并行文本生成 | Aione