关注Model Opensource2026-06-06 09:07:22

Google推出Gemma 4 QAT量化优化检查点，大幅压缩体积适配端侧

Google正式推出Gemma 4系列的量化感知训练（QAT）优化版开源检查点，最小模型体积从11.4GB压缩到1.1GB。该技术将量化融入训练，相比传统训练后量化更好保留模型性能，适配手机笔记本等终端

编辑视角

本次优化为端侧大模型部署提供了可行的压缩方案，方便开发者在消费级终端运行开源大模型，对边缘AI应用开发有较高参考价值

深度解读

本次发布是Google对已开源Gemma 4模型系列的端侧落地优化补充，核心通过量化感知训练（QAT）技术实现模型体积大幅压缩，同时尽可能保留推理性能，目标推动Gemma 4在消费级终端落地。现有多家主流科技媒体证实，Google官方博客已正式宣布上线该系列检查点，共推出五种不同规格优化版本，采用定制移动端量化方案，最小模型从原11.4GB压缩至1.1GB。边界：本次仅推出优化后的检查点，未新增全新参数规模的基础Gemma 4模型，压缩模型在复杂任务上的实际性能损失暂无大规模公开验证数据，实际效果需开发者测试。后续可观察社区推理框架适配进度与实际端侧运行性能

核心要点

Google发布Gemma 4系列QAT量化优化版开源检查点
最小模型体积从11.4GB压缩至1.1GB，适配端侧设备
QAT技术相比传统PTQ压缩更能保留模型推理性能