关键AI产品2026-06-09 12:28:24

小米联合TileRT推出UltraSpeed模式万亿模型推理破1000tokens/s

2026年6月9日，小米联合TileRT推出MiMo-V2.5-Pro UltraSpeed极速推理模式，在通用GPU环境下实现万亿参数大模型输出速度突破1000tokens/s，峰值可达1200tokens/s。目前已开放限时API服务，相关模型权重已开源。

编辑视角

该突破是大模型推理效率领域的重要里程碑，在通用GPU实现极速推理大幅降低落地门槛，对大模型实时交互应用落地有重要参考价值，值得从业者关注。

深度解读

本次小米与TileRT联合推出的UltraSpeed模式，通过模型侧FP4混合量化、DFlash块级并行推测解码，结合系统侧常驻内核引擎与异构流水线优化，首次在单台8卡通用GPU节点上实现万亿参数大模型输出速度突破1000tokens/s，峰值可达1200tokens/s，无需定制专用芯片。同步上线限时开放的API服务，定价为标准版三倍，速度提升约十倍，相关模型权重与checkpoint已开源。边界：当前该服务仅限时开放至6月23日，受硬件资源限制采用申请制，普通用户体验配额有限，性能为官方公布的标准节点测试数据，实际生产场景表现有待验证，暂不支持原有Token套餐。后续需观察该技术方案的实际落地效果与常态化开放计划。

核心要点

小米联合TileRT在通用GPU实现万亿模型推理破1000tokens/s
推出UltraSpeed限时API，定价为标准版三倍速度提升十倍
FP4权重与模型checkpoint已开源至HuggingFace

小米联合TileRT推出UltraSpeed模式 万亿模型推理破1000tokens/s

小米联合TileRT推出UltraSpeed模式万亿模型推理破1000tokens/s