关注Model Opensource2026-06-06 16:26:27

英伟达发布开源600M参数缓存感知流式ASR模型Nemotron 3.5 ASR

NVIDIA Nemotron Speech团队发布600M参数流式自动语音识别模型Nemotron 3.5 ASR，已在Hugging Face开源，支持40种语言地区实时转录，优化了延迟与GPU吞吐，适配实时语音交互场景。

编辑视角

该模型针对实时对话AI做了架构重构，缓存感知设计提升性能，开源方案为GPU端语音应用开发提供了成熟选择。

深度解读

本次发布的Nemotron 3.5 ASR是NVIDIA GTC 2026推出的Nemotron 3家族语音产品，采用缓存感知FastConformer-RNNT架构，通过维护内部缓存避免重复编码，配合深度可分离卷积下采样减少显存占用，将流式推理延迟控制在百毫秒内，单个检查点支持40种语言，原生支持标点与大小写，已以OpenMDW-1.1协议开源。边界：目前公开信息未提供公开测试集的精度对比数据，仅针对NVIDIA GPU做了优化，未提及其他硬件适配情况，第三方硬件部署效果未知。后续可关注该模型的社区采用与实际落地表现。

核心要点

NVIDIA发布600M参数开源流式ASR模型Nemotron 3.5 ASR
采用缓存感知架构，降低推理延迟，提升GPU吞吐能力
单个检查点支持40种语言地区实时转录，原生支持标点大小写
以OpenMDW-1.1协议开源，托管于Hugging Face平台