27 tok/s 之后,在 MacBook 上跑大模型还缺一个真相
27 tok/s,这个数字正在被包装成“个人设备吃掉前沿 AI”的符号。Redis 创始人 antirez 发布的纯 C 推理引擎 ds4,声称在 128GB 内存的 MacBook Pro 上流畅运行 DeepSeek V4 Flash 模型,支持 1M token 上下文窗口。消息一出,开源社区沸腾,“大模型民主化”再次成为热词。
但这个叙事过于顺滑了。顺滑到需要先问一句:这台被塞进 MacBook 的 V4 Flash,在 2-bit 量化后,还剩下多少原版的内核?目前没有任何公开数据能回答这个问题。
27 tok/s 是一个速度数字,不是能力数字。把速度等同于可用,是当前 AI 硬件叙事中最危险的混淆。
拆开 27 tok/s:一个无法复现的性能声明
ds4 引擎用三项技术实现了这个速度:对 MoE 专家的不对称 2-bit 量化、把 KV Cache 卸载到高速 SSD、基于 Metal API 做原生 GPU 加速。每一项单独看都不新,但组合起来确实可能在统一内存受限的 Mac 上挤出额外空间。
问题在于,这个 27 tok/s 究竟测得的是什么。DeepSeek V4 Flash 的总参数量、激活参数量、以及权重实际在内存中的驻留策略,目前都没有公开说明。一个基于 MoE 架构的模型,即使总参数达 671B,其每次推理激活的参数子集可能远小于总量;经过 2-bit 量化后,参数文件体积被极致压缩,理论上具备了装入 128GB 统一内存的可能。但前提是,大部分专家权重必须被动态加载到 SSD 上——这种架构会使得延迟暴增。
ds4 引擎选择的是后一条路:把 KV Cache 搬到高速 SSD。Apple Silicon 的内置 SSD 顺序读取可以超过 5GB/s,但 KV Cache 的访问模式是高度随机的。1M token 的上下文窗口下,KV Cache 可能膨胀到上百 GB,随机读延迟会严重破坏生成体验。27 tok/s 作为一个平均速度,很可能隐藏了首 token 的漫长等待和长上下文下的 tail latency。在生产环境中,P95/P99 延迟才是有意义的指标,均值只是障眼法。
更关键的是,百度云的一篇部署指南提供了可交叉验证的实测数据:M2 Max 芯片运行 7B 量化模型时,首 token 延迟约 800ms,持续生成速度达 35 tok/s[2]。这说明小参数量化模型在 Apple Silicon 上跑出可用速度,是一个已经被社区反复验证的已知结论。ds4 引擎展示的不是“大模型在 MacBook 上能跑”这个旧闻,而是“通过定向优化把某个版本的 V4 Flash 压缩到 128GB 机器上”的工程可行性——这是一个值得追踪的信号,但远非已完成的趋势。
至今没有第三方独立安装、运行、评测 ds4 引擎的报告。没有系统配置截图、没有实测 log、没有可对照的复现记录。这意味着 27 tok/s 目前是一个孤证,而孤证在工程评估中只能对应“概念验证”,不能支撑“能力交付”的判断。
量化的代价:速度有了,能力还在吗
这是整件事中最致命的信息缺口。不对称 2-bit 量化不是标准格式,通常是 per-group 量化加非对称零点,用于进一步压缩权重。2-bit 意味着每个参数平均只用 2 个比特去近似原本 16 位或 32 位的浮点表示。在图像模型上,这种极低精度已经边缘化;在语言模型上,尤其是 MoE 这种依赖稀疏激活的结构,对量化噪声极其敏感。
一位社区用户在部署 32B 模型后反馈输出速度只有 10 token/s,“要是上 70B,可能就卡的不行了”[3]。这是真实用户的边界体感。即便是更温和的 Q4_0 量化,中等规模模型在长链条推理上的质量下降也往往显著。而 2-bit 量化把精度压缩推到了极致,却没有提供任何下游任务评测——没有 MMLU 分数、没有 HumanEval 通过率、没有长文本召回率测试。
DeepSeek 官方系统配置说明中明确提醒:量化配置只是运行模型的最基本条件,假设 Mac 上没有运行其他程序,“性能不理想,上下文长度也会很小”[1]。这个官方警示直接把“能跑”和“能用”之间的差距摆上了台面。而 ds4 引擎把 27 tok/s 标出来,恰恰说明这个速度是值得拿出来说的——它不是理所当然的,它是在特定条件下挤出来的极限值。
当技术新闻把速度数字包装成能力交付时,最需要追问的就是:27 tok/s 流利生成的,究竟是什么质量的输出?如果模型在量化后已经丢掉了 V4 最核心的推理能力,在复杂推理、多轮对话、代码生成任务上出现不可接受的退化,只剩流畅的废话,那么这台 MacBook 上跑的只是一个看起来像 V4 的躯壳。
原始情报中有一条明确的警示:“量化精度损失超预期则沦为极客玩具”。这不是危言耸听,这是对当前证据缺口的精准定位。
重新定义“一台个人电脑”
叙事中反复出现的“个人设备”这个词,也需要被重新审视。128GB 统一内存的 MacBook Pro,是目前苹果笔记本产品线的顶配,价格在数万元级别,用户群体极小。这还不算完:ds4 把 KV Cache 卸载到高速 SSD,意味着用户除了这台顶配机器,还需要能跟上模型吞吐的外接存储。
此时“一台个人电脑”已经不是普通消费者理解的个人电脑了。它是一个经过深度定制、价格昂贵、普通用户几乎不可能拥有的异构计算节点。把这个方案称为“民主化”,本质上是把定制赛车引擎塞进家用车底盘,然后宣布人人都能上赛道。
DeepSeek 官方的硬件建议很清晰:MacBook Air 适用于参数少于 70 亿的小型量化模型,MacBook Pro(64GB)是运行中等规模模型的“很好的选择”,而大型完整模型需要配备 M2 Ultra 和 192GB 统一内存的 Mac Studio[1]。换句话说,128GB 本身就是一个边界值——对于经过激进量化的大模型,它处于“能跑但不好用”的区间。ds4 把门槛压到了这个区间内,是一次工程突破,但并没有突破到“主流配置可用”的范畴。
如果同样的工程资源被用在降低中等配置的门槛上——让 32GB 或 64GB 机型以更高精度运行——或许会有更实质的用户价值。但目前的叙事刻意回避了这一点,让门槛看起来像是一道窄门,而非一堵墙。
叙事煽动的危险误解
ds4 项目本身作为一次工程极限探索,是令人尊敬的。Redis 创始人用几千行 C 代码完成了一个高度定向的优化方案,展示了个人设备推理边界的可能性。但当前叙事把“前沿 AI 能力民主化”的标签贴在了一个不符合条件的对象上。
这种叙事会给人造成一种危险的错觉:既然有人能在 MacBook 上跑 V4,那离普通用户在 16GB 笔记本上跑也就不远了。这个错觉跳过了中间巨大的硬件鸿沟和工程鸿沟——从 128GB 到 16GB,不是同一条路径上的“进一步优化”,而是需要根本性突破的物理约束。
更关键的是,这种过度包装会消解对推理基础设施真正需要解决的问题的公众关注。当人们相信“个人设备已经可以运行前沿模型”时,云端推理的成本优化、边缘部署的架构设计、量化精度的评测标准,这些真正在推动产业前进的工程问题,反而被遮蔽了。
DeepSeek 正在启动据称高达 500 亿元的首轮融资,计划 6 月发布 V4.1 模型以加速商业化。与此同时,云端推理的成本正在雪崩式下跌——SemiAnalysis 报道在 GB300 上已实现 4 倍交互吞吐量提升,Sakana AI 与 NVIDIA 合作开发的 TwELL 稀疏格式在 H100 上推理速度提升超 20%。云端单位 token 的成本还在往下掉,本地部署的一次性硬件投入,必须和“用完即走、永远不用维护、永远是最新模型”的 API 在争夺客户预算。
在这种情况下,一台数万元的顶配 MacBook 加外接存储的总拥有成本,当计入折旧、部署人力、模型更新和精度折损后,与云端按需付费相比是否真的划算,是一个没有现成答案的问题。
需要被回答的三个问题
27 tok/s 不能成为一个自足的论据。在这条技术路径能从极客演示走向工程实用之前,有三个问题必须在公开数据中被回答。
第一,量化后的模型还保留了多少能力? 需要标准 benchmark 上的分数对比——MMLU、HumanEval、长文本召回率,任何能说明下游任务性能的指标。没有这些,速度就是个空心数字。
第二,真实使用场景下的延迟分布是怎样的? 首 token 延迟是多少?在 1M 上下文窗口占用下,速度是否会剧烈抖动?P95 和 P99 延迟曲线是什么形态?一个用户塞进一整本书去提问,等待数十秒后才开始得到回复,此时 27 tok/s 的生成速度会被启动阶段的漫长等待彻底消解。
第三,这件事能否被第三方复现? 开源仓库是否包含完整构建指令、模型获取方式、权重转换脚本?能否在统一评测框架下跑出标称性能?一个技术成果要获得超出“技术演示”的地位,必须是可被独立验证的。
在以上三个问题获得公开可查的答案之前,ds4 引擎的 27 tok/s 只能被归类为一次个人设备推理的极限概念验证。它展示了工程优化的方向,但不具备任何普适性,更不能被等同于“大模型已可在个人设备上实用”的产业判断。
真正值得追踪的不是这个数字本身,而是接下来几个月,量化后模型的精度损失数据、社区复现的实测报告、以及不同硬件配置下的性能衰减曲线。当这些数据对齐,且单位任务成本——包括内存占用、推理延迟和质量损失——显著优于其他方案时,才能说这条路径真正从极客演示走向了实用。
在此之前,27 tok/s 只是一个被高速数字打扮起来的技术可能。可能本身足够宝贵,但可能不等于能力,更不等于产品。
参考资料
“让大模型跑在个人笔记本上”的口号每隔几个月就会出现一次,但这次提供的是一个可以试图复现的工程主张:Redis 创始人 antirez 发布了一个纯 C 推理引擎 ds4,专门为 DeepSeek V4 Flash 设计,在 128GB 内存的 MacBook Pro 上跑出了 27 tok/s 的生成速度,且声称支持 1M token 上下文窗口。要把这个结果当作可以进入生产链路的技术进展,必须先回答一个最朴素的问题:这个 27 tok/s 究竟跑的是什么模型、在什么精度下、用多少真实上下文、代价是什么。 首先拆最小可运行闭环。ds4 引擎用了三项关键技术:对 MoE 专家进行不对称 2-bit 量化、把 KV Cache 搬到高速 SSD、基于 Metal API 做原生 GPU 加速。这几个技术点分开看都不新,但组合在一起确实有可能在统一内存受限的 Mac 上挤出额外空间。问题在于,MoE 模型参数量是决定性变量。即便用 2-bit 量化,一个 671B 的总参数模型也需要接近 170GB 内存,完全塞不进 128GB 统一内存,除非模型本身足够小,或者大部分专家被动态加载到 SSD 上,但这会使延迟暴增。当前并没有公开信息说明 DeepSeek V4 Flash 的总参数量、激活参数量、以及权重实际在内存中的驻留策略。没有这些,27 tok/s 就只是一个无法复现的性能声明。 其次看量化代价。不对称 2-bit 量化不是标准格式,通常是 per-group 量化加非对称零点,用于进一步压缩。然而 2-bit 精度在图像模型上已经边缘化,在语言模型上,尤其是 MoE 这种稀疏激活结构,对量化噪声非常敏感。公开评测中,即使是 4-bit 的 Q4_0 量化,中等规模模型在长链条推理上的质量下降也往往显著。情报中有一条明确的警示:“量化精度损失超预期则沦为极客玩具”,这并非危言耸听。如果没有公开的 benchmark(比如 MMLU、HumanEval 或其他有监督下游任务分数),只能把“能跑”等同于“保留足够能力”,这是一种危险的混淆。 KV Cache 放到 SSD 的决策则牵涉到延迟模型。Apple Silicon 的内置 SSD 顺序读可以超过 5GB/s,但随机读对长上下文的 KV Cache 访问模式往往是致命的。1M token 的 KV Cache 可能达到上百 GB(取决于模型维度),全部放在 SSD 需要精细的预取与计算重叠,否则生成延迟会出现严重抖动。27 tok/s 的平均速度很可能隐藏了首 token 延迟和长上下文下 tail latency 的问题。生产环境关心的是 P95/P99 延迟,而不是均值。ds4 目前没有任何多轮对话或长文档推理的真实延迟分布数据,这又是一个证据缺口。 再把工程成本和部署边界算清楚。ds4 引擎是纯 C 实现,仅几千行代码,并不意味着维护简单。它深度绑定 Metal API 和 Apple 统一内存架构,不具备通用性,也无法轻易迁移到其他平台。对模型权重格式、量化矩阵、KV Cache 管理等做了硬编码假设,后续 DeepSeek V4 Flash 一旦升级模型架构(例如不同的专家路由或位置编码),引擎就可能需要大幅重写。这意味着它更接近于一次性的极客优化项目,而非面向开发者的可维护推理栈。部署门槛还卡在了 128GB 内存,这是当前 MacBook Pro 的顶配,用户群体极小,不具备规模化意义。 再从可复现性上看,至今没有第三方独立安装、运行、评测 ds4 引擎的报告。开源仓库如果存在,需要检查是否包含了完整构建指令、模型获取方式、权重转换脚本,以及是否能跑出标称的 27 tok/s 和 1M 上下文。任何缺失都会让这项发布退回到“技术演示”范畴,而非可复现的工程成果。即便仓库完整,还需要在统一的评测框架下测长文本召回率、困惑度等,确认量化带来的精度损失在可接受范围内。 综合来看,ds4 引擎在架构路线上是合理的工程尝试,展示了通过极致量化和异构存储扩展个人设备 AI 推理边界的可能性。但目前能给出的技术判断很有限:它成功在 128GB MacBook Pro 上使某个版本的 DeepSeek V4 Flash 模型运行起来,达到 27 tok/s 的平均生成速度,可能支持长上下文,但所有关键指标——模型参数量、量化精度损失、长上下文推理质量、延迟分布、可复现性——均缺乏公开可验证证据。工程代价高昂且平台锁定,部署面极窄。后续需要关注的核心指标是:开源代码和模型权重的发布、标准 benchmark 上的量化性能对比,以及在真实长文档推理任务中 P95 延迟和准确率。只有当这些指标对齐,且单位任务成本(这里指内存占用、推理延迟、质量损失)显著优于其他方案时,才能说这条路径真正从极客演示走向了实用。
建议将结尾比喻句“27 tok/s 只是一个被高速数字打扮起来的技术可能”改为更克制的表述,如“27 tok/s 当前仅代表一项未经验证的概念验证”,避免过度情绪化削弱批判的客观性。
为什么没放进正文:总编辑认为品牌风格允许锐利收尾,且该比喻强化了读者对速度≠能力的认知,不必软化。拒绝修改。
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-05-10 11:42:59。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。