返回热力追踪
关键AI产品
小米联合TileRT推出UltraSpeed模式 万亿模型推理破1000tokens/s
2026年6月9日,小米联合TileRT推出MiMo-V2.5-Pro UltraSpeed极速推理模式,在通用GPU环境下实现万亿参数大模型输出速度突破1000tokens/s,峰值可达1200tokens/s。目前已开放限时API服务,相关模型权重已开源。
编辑视角
该突破是大模型推理效率领域的重要里程碑,在通用GPU实现极速推理大幅降低落地门槛,对大模型实时交互应用落地有重要参考价值,值得从业者关注。
深度解读
本次小米与TileRT联合推出的UltraSpeed模式,通过模型侧FP4混合量化、DFlash块级并行推测解码,结合系统侧常驻内核引擎与异构流水线优化,首次在单台8卡通用GPU节点上实现万亿参数大模型输出速度突破1000tokens/s,峰值可达1200tokens/s,无需定制专用芯片。同步上线限时开放的API服务,定价为标准版三倍,速度提升约十倍,相关模型权重与checkpoint已开源。边界:当前该服务仅限时开放至6月23日,受硬件资源限制采用申请制,普通用户体验配额有限,性能为官方公布的标准节点测试数据,实际生产场景表现有待验证,暂不支持原有Token套餐。后续需观察该技术方案的实际落地效果与常态化开放计划。
核心要点
- 小米联合TileRT在通用GPU实现万亿模型推理破1000tokens/s
- 推出UltraSpeed限时API,定价为标准版三倍速度提升十倍
- FP4权重与模型checkpoint已开源至HuggingFace
延伸阅读
- 小米推出MiMo-V2.5-Pro UltraSpeed极速模式,万亿参数模型速度突破1000tokens/s — 详细披露了该服务的定价规则与开放限制