返回热力追踪
关注Model Opensource
英伟达发布开源600M参数缓存感知流式ASR模型Nemotron 3.5 ASR
NVIDIA Nemotron Speech团队发布600M参数流式自动语音识别模型Nemotron 3.5 ASR,已在Hugging Face开源,支持40种语言地区实时转录,优化了延迟与GPU吞吐,适配实时语音交互场景。
编辑视角
该模型针对实时对话AI做了架构重构,缓存感知设计提升性能,开源方案为GPU端语音应用开发提供了成熟选择。
深度解读
本次发布的Nemotron 3.5 ASR是NVIDIA GTC 2026推出的Nemotron 3家族语音产品,采用缓存感知FastConformer-RNNT架构,通过维护内部缓存避免重复编码,配合深度可分离卷积下采样减少显存占用,将流式推理延迟控制在百毫秒内,单个检查点支持40种语言,原生支持标点与大小写,已以OpenMDW-1.1协议开源。边界:目前公开信息未提供公开测试集的精度对比数据,仅针对NVIDIA GPU做了优化,未提及其他硬件适配情况,第三方硬件部署效果未知。后续可关注该模型的社区采用与实际落地表现。
核心要点
- NVIDIA发布600M参数开源流式ASR模型Nemotron 3.5 ASR
- 采用缓存感知架构,降低推理延迟,提升GPU吞吐能力
- 单个检查点支持40种语言地区实时转录,原生支持标点大小写
- 以OpenMDW-1.1协议开源,托管于Hugging Face平台
延伸阅读
- 英伟达开源Nemotron 3.5 ASR与Content Safety安全模型 — 披露英伟达同期发布的另一款开源安全模型