关注Model Opensource2026-06-11 01:33:23

英伟达完成谷歌DiffusionGemma硬件优化实现高吞吐量并行文本生成

谷歌DeepMind推出的DiffusionGemma基于Gemma 4架构，支持多模态，采用扩散去噪并行生成tokens。英伟达对该模型做了专属硬件优化，生成速度快于传统逐Token生成方案，可支持实时AI类应用部署。

编辑视角

该优化解决了实时AI应用的生成速度瓶颈，为开发者提供可落地的高吞吐量文本生成方案，对部署实时AI服务的开发者具备较高参考价值。

深度解读

本次是英伟达官方博客发布针对谷歌DeepMind开源DiffusionGemma的NVIDIA硬件优化方案。该模型采用扩散式去噪并行生成Token，相比传统逐Token生成速度更快，支持文本图像多模态，基于Gemma 4 26B A4B MoE架构，为实时AI应用开发者提供了就绪方案。边界：现有公开信息仅披露优化方向与核心优势，未放出具体性能benchmark对比数据，也未明确说明该优化是否覆盖全系列NVIDIA硬件，暂未披露大规模落地应用案例，本次仅为开发者方案发布。后续可关注具体性能数据、开发者采用情况以及更多硬件平台的适配进展。

核心要点

谷歌DeepMind的DiffusionGemma基于Gemma 4 26B MoE架构，支持多模态
DiffusionGemma采用并行扩散去噪生成，速度优于传统逐Token方案
英伟达完成该模型硬件优化，推出面向开发者的就绪方案

英伟达完成谷歌DiffusionGemma硬件优化 实现高吞吐量并行文本生成

英伟达完成谷歌DiffusionGemma硬件优化实现高吞吐量并行文本生成