关注AI产品2026-06-17 06:31:05

亚马逊云推出SageMaker AI容器缓存加速生成式AI模型扩缩容

AWS官方宣布为Amazon SageMaker AI推理推出容器镜像缓存功能，属于模型扩缩容优化的新进展，可将生成式AI扩缩时的端到端延迟最高降低一半。

编辑视角

对于在AWS上部署生成式AI大模型的开发者与企业，该功能直接提升扩缩容响应速度，优化推理体验，是值得关注的云侧AI推理更新。

深度解读

本次信号主旨是AWS官方推出Amazon SageMaker AI推理场景的容器镜像缓存新功能，核心目标是优化生成式AI模型扩缩容过程中的启动延迟，官方公开数据显示该功能可将端到端延迟最高降低50%，是AWS持续推进SageMaker推理性能优化的最新进展。现有证据来自AWS官方博客的正式发布公告，外部检索也验证了该功能发布的真实性，AWS官方文档也已包含相关缓存配置说明。本功能的边界是：仅针对SageMaker AI推理场景的容器镜像缓存优化，不覆盖模型权重、KV缓存等其他推理优化方向，目前仅官方发布，尚未有大规模第三方用户落地的性能验证数据。后续需要观察该功能的实际落地表现，以及对大模型推理部署成本的影响。

核心要点

AWS官方推出SageMaker AI推理容器镜像缓存新功能
该功能可将生成式AI扩缩时延最高降低50%
是AWS优化SageMaker大模型推理性能的最新进展

亚马逊云推出SageMaker AI容器缓存 加速生成式AI模型扩缩容

亚马逊云推出SageMaker AI容器缓存加速生成式AI模型扩缩容