关键Model Opensource2026-06-09 01:32:11

英伟达发布Nemotron 3 Ultra 优化长时AI智能体推理效率

英伟达正式发布专为长时运行AI智能体优化的Nemotron 3 Ultra大模型，这是一款550B总参数的混合专家模型，采用新架构优化长上下文处理，推理速度最高提升5倍，任务成本最高降低30%。

编辑视角

当前AI智能体是行业热点，该模型解决了长时多轮推理的效率痛点，来自头部厂商英伟达，对智能体开发、大模型落地有重要参考价值。

深度解读

本次信号的主旨是头部厂商英伟达发布专为长时运行AI智能体打造的新型大模型，瞄准单轮聊天机器人向长时智能体升级的行业趋势，解决长上下文多轮推理效率低、成本高的痛点。现有公开信息显示，模型为550B总参数的MoE结构，激活参数55B，采用混合Mamba-Transformer架构，配合NVFP4量化优化，可支撑复杂编码、跨源研究、企业级任务。证据来自英伟达官方开发者博客，信息真实可验证。边界：目前公开信息未披露模型完整开源获取方式与商用授权条款，仅提及早期采用者率先接入，暂无大规模第三方落地测试数据，不能确认所有场景都能达到宣称的性能提升。后续观察点为模型开放获取通道、商用政策以及第三方实测表现。

核心要点

英伟达发布专为长时AI智能体优化的Nemotron 3 Ultra大模型
该模型为550B总参数MoE模型，激活参数为55B
采用混合Mamba-Transformer架构与NVFP4量化优化
推理速度最高提升5倍，复杂任务成本最高降30%