返回热力追踪
关注Model Opensource

Google推出Gemma 4 QAT量化优化检查点,大幅压缩体积适配端侧

Google正式推出Gemma 4系列的量化感知训练(QAT)优化版开源检查点,最小模型体积从11.4GB压缩到1.1GB。该技术将量化融入训练,相比传统训练后量化更好保留模型性能,适配手机笔记本等终端

编辑视角

本次优化为端侧大模型部署提供了可行的压缩方案,方便开发者在消费级终端运行开源大模型,对边缘AI应用开发有较高参考价值

深度解读

本次发布是Google对已开源Gemma 4模型系列的端侧落地优化补充,核心通过量化感知训练(QAT)技术实现模型体积大幅压缩,同时尽可能保留推理性能,目标推动Gemma 4在消费级终端落地。现有多家主流科技媒体证实,Google官方博客已正式宣布上线该系列检查点,共推出五种不同规格优化版本,采用定制移动端量化方案,最小模型从原11.4GB压缩至1.1GB。边界:本次仅推出优化后的检查点,未新增全新参数规模的基础Gemma 4模型,压缩模型在复杂任务上的实际性能损失暂无大规模公开验证数据,实际效果需开发者测试。后续可观察社区推理框架适配进度与实际端侧运行性能

核心要点
  • Google发布Gemma 4系列QAT量化优化版开源检查点
  • 最小模型体积从11.4GB压缩至1.1GB,适配端侧设备
  • QAT技术相比传统PTQ压缩更能保留模型推理性能
延伸阅读
  • 谷歌重磅开源 Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决介绍Gemma 4整体发布背景,适合扩展阅读
Google推出Gemma 4 QAT量化优化检查点,大幅压缩体积适配端侧 | Aione