2026 年 5 月 9 日,Redis 创始人 antirez 公开了名为 ds4 的原生推理引擎,用几千行 C 代码让 DeepSeek V4 Flash 在 128GB MacBook Pro 上完成推理,实测 27 tok/s,支持 1M 上下文窗口[1]。同一天,Figure AI 发布视频,展示两台人形机器人协作整理卧室——挂外套、合电脑、铺床单,不到两分钟铺好一张床,基于升级后的 Helix 02 模型,机器人靠视觉点头完成协调,无需显式通信[2]。
两条消息共享同一个命题:AI 能力从云端向端侧迁移。真正值得追踪的问题是,迁移过程中哪些代价被清晰标出,哪些代价目前仍不可见。
antirez 选择了三条技术路径来压缩推理开销:对 MoE 专家的权重做不对称 2-bit 量化,激活值保持高精度;把 KV Cache 卸载到高速 SSD 以突破内存墙;为 Apple Silicon 写了一套纯 Metal 原生的计算后端。不对称量化在 MoE 架构上有一定适配性——共享专家和路由专家的激活模式不同,区分对待比一刀切的低位量化更可能保留模型能力。KV Cache 搬移到 SSD 延续了 llama.cpp 早期探索过的方向,只是把 cache 规模进一步推到了百万 token 量级。Metal 原生优化绕开了 CUDA 的生态惯性,在 Apple 的统一内存架构上试图吃尽指令集和内存层次的每一个优势。
从工程思路看,这套方案是自洽的。但工程自洽和“大模型流畅运行在个人电脑”之间,隔着一层必须由第三方复现才能填实的真空。
首先看那个 27 tok/s 的数字。原始信源是社交媒体的文字描述,引用 antirez 本人的开源仓库说明和性能截图。没有独立复现测试,没有环境温度下的长序列压测记录。1M 上下文窗口下的 KV Cache 大小可能达到几十 GB 量级,SSD 的随机读延迟远高于内存。生成每个 token 时需要频繁从 SSD 检索相关 Key-Value 对,27 tok/s 是首 token 还是平均吞吐?在上下文中后段、需要密集读 SSD 时,吞吐量变化曲线如何?这些数据缺失——不是因为这种性能波动一定会发生,而是目前可获取的材料里,没有任何公开的测试向量和压力条件下的延时分布报告,无法支撑“流畅运行”的结论。
第二个缺口是量化对模型质量的影响。2-bit 量化让权重极度压缩,理论上可以减轻内存带宽压力,但对模型输出质量不是免费的。目前没有任何公开的 perplexity 对比或下游任务 benchmark,看不到量化前后的精度损失。不对称量化的标定方法是否需要微调来恢复精度,在可查证的材料里全部缺失。如果有速度而没有质量基准,那就只是一次“跑通了”的演示。
第三层问题是模型特化程度。ds4 是为 DeepSeek V4 Flash 这一个 MoE 架构模型量身定制的推理引擎,非对称量化放大了 MoE 专家稀疏激活的结构优势。没有证据表明同样的方案在应用到 Dense 模型或不同 MoE 结构时能保持同等效果。如果这是一次精心设计的硬件-模型耦合演示,报道中“democratize”一词就失去了通用性的含义。
把这三层缺口叠在一起,目前能得出的判断是:antirez 在工程上展示了一条技术上自洽的本地推理路径,把一个原本需要多卡云端环境的模型推到了高端移动工作站的边界上。路径能不能被社区复现,能不能跨模型泛化,能不能在真实负载下维持可接受的交互体验,都需要更多人在自己的机器上跑一遍才能回答。
Figure AI 的铺床演示处在类似的位置。两台人形机器人在受控房间里挂衣服、合电脑、铺床单,靠视觉“点头”完成协作而无需显式通信,这个设计在架构上是合理的。但协作精度完全依赖于对同伴动作的实时视觉识别,而床单这类柔性物体的状态空间极高,这是机器人操作领域公认的 open problem。
视频没有披露成功率。是一百次里成功了一次,还是连续稳定运行?实验室环境的照明、背景、床单褶皱的初始化状态有没有控制?公司在新闻稿中称“不到两分钟”完成铺床,但如果把多次实验中表现最好的一次剪辑出来,这个时间跟平均完成时间没有关系。这些细节直接决定这项能力能否从 Demo 走向生产部署,目前它们都未被公开——截至目前只能依据公开视频和公司声明得出上述判断,尚无第三方独立测试数据来填充这些空白。
从商业逻辑审视,两个案例都需要回答同一个问题:谁在什么条件下愿意为这些能力付钱?ds4 把推理成本从云端 API 的运营支出变成了一台高配 MacBook 的设备折旧——对于已经拥有这台设备的人,边际推理成本趋近于零;对于需要新增采购的人,成本反而前置了。对数据主权敏感的企业客户可能是一个方向,但前提是企业 IT 愿意管理一个用 C 语言写的推理引擎,没有 vendor support、没有 SLA、没有合规认证。商业化待验证的指标不是 GitHub star 数,而是是否有 DevOps 工具链厂商将 ds4 包装进企业部署方案,或者是否有数据合规场景的客户公开表示已将部分推理负载从云端迁移。在这些证据出现之前,ds4 是成本结构重定价的极限验证,不是商业化转折点。
Figure AI 面对的问题更尖锐:家庭场景中,谁会为“两分钟铺好床”支付足以覆盖硬件成本的价格?390 亿美元的估值建立在通用人形机器人替代人类劳动力的叙事上[2],但铺床这项任务的替代成本——请家政或自己做——远低于机器人折旧。消费者愿意为扫地机器人付几千元,不会为铺床机器人付几十万元。这更像技术肌肉展示,尚未触达客户预算迁移的商业闭环。
如果把两件事并置观察,呈现的是一种典型的高影响力信号组合,但当前可获取的信源材料以一手的社交媒体帖子和公司官方发布为主,独立第三方复现数据尚未出现——这意味着目前的结论只能落在“值得社区验证”而非“已验证成立”。这件事值得追踪,但如果用它来宣告“个人电脑大模型平权已经到来”,说服力还不够硬。实际上,社区公开复现本身就是填补当前信源缺口的直接方式:一旦多个独立测试者在不同硬件环境上跑出可比性能和稳定性数据,当前判断的置信度会立刻上升一档。
后续需要追踪的指标已经明确。ds4 的 GitHub 仓库是否公开发布,首次 release 是否附带 benchmark 讨论,社区反馈的首次安装成功率如何,第三方能否在类似硬件上复现同等吞吐和稳定性。Figure AI 能否放出连续运行未剪辑的完整视频,是否在 arXiv 或其他渠道公开 Helix 02 的技术报告细节。DeepSeek 本身正在推进 500 亿元规模的融资和商业化进程,这些信号可能释放本地推理的客户需求方向[3]。Apple 如果在 WWDC 上透露对这类本地推理能力的系统级支持,将是另一个关键变量。
在这些证据落地之前,2026 年 5 月这两则消息记录的是:有人在用几千行 C 代码重新定义大模型推理的成本锚点,有人在用两台机器人试探柔性物体操控的能力边界。两件事都在前进,但距离它们各自被赋予的确定性叙事,还差至少一次独立的、可重复的验证。
参考资料
先把 Antirez 的 ds4 引擎拆成一个能不能跑通的问题:在 128GB 统一内存的 MacBook Pro 上,用几千行 C 代码和 Metal 后端,把 DeepSeek V4 Flash 这个 MoE 大模型的推理跑起来,还要支持 1M 上下文窗口,实测达到 27 tok/s。这事的工程野心不小,但每一项技术承诺都需要对号入座地查证据。 先看不对称 2-bit 量化。MoE 模型的专家数量多,存储压力主要来自 FFN 层权重。不对称量化意味着激活仍然保持较高精度,仅对权重做极端压缩。理论上可以减轻内存带宽压力,但 2-bit 量化对模型质量的影响不是免费的。关键缺失在于:目前没有任何公开的 perplexity 对比或下游任务 benchmark,看不到量化前后精度损失多少。README 里有没有注明量化策略、标定方法、是否需要微调恢复精度?如果只有推理速度而没有质量基准,那就只是一次“跑通了”的演示,不是“跑得同样好”的产品化。 KV Cache 移到高速 SSD 这件事更复杂。统一内存架构下,Apple Silicon 的 CPU 和 GPU 共享地址空间是个优势,但把 KV Cache 放到 SSD 而不是内存,等于引入了 I/O 延迟。1M 上下文窗口下,KV Cache 的大小可能达到几十 GB 量级,SSD 的随机读延迟远高于内存。这里的技术挑战不是能不能存,而是在生成每个 token 时,能否及时从 SSD 中检索到相关的 Key-Value 对。27 tok/s 是首 token 还是平均吞吐?在上下文中后段、需要频繁读 SSD 时,这个速度会不会掉到个位数?没有实测曲线,这个数字就只能是峰值快照。 第三件事是 Metal 原生优化。这是架构契合度最高的部分,但工程复杂度不能低估。Metal Shading Language 虽然 C++ 风格,但要写出能同时利用 GPU 计算单元和统一内存带宽的内核,不是简单移植。几千行 C 代码里 Metal 内核占比多少?是否直接调用了 MPS 框架还是手写 Shader?如果未来模型架构变了,比如专家数调整、注意力机制修改,这套硬编码优化能不能低成本适配?这是系统维护性的关键指标。 从可复现性角度,目前只有一个 Twitter 链接的转述,指向原推。需要立刻去查:Antirez 是否已经公开了 GitHub 仓库、是否有 Dockerfile 或一键运行脚本、是否标注了依赖的 Python 环境和模型权重获取方式。如果仓库还没开,那现在的所有报道都是“声称实现”而非可被验证的技术判断。即便仓库开了,也要看第三方能否在类似硬件上复现同样的吞吐和稳定性。开源社区最擅长在这种时候集体暴露边界条件。 换个角度,如果这些技术全部兑现,这套方案确实挑战了“大模型推理必须上云”的假设。但需要明确适用范围:它跑的是 DeepSeek V4 Flash,一个特定架构的 MoE 模型,量化策略很可能已经针对这个模型的专家分布做过调优。换成 Dense 模型或不同 MoE 结构,方案是否通用?这是否只是一次精心设计的硬件-模型耦合演示,而不是一个通用的推理引擎?这一点直接决定报道中“democratize”一词是否成立。 再转到 Figure AI 的人形机器人演示。先不考虑商业估值和上市时间,只看 Helix 02 模型和协作铺床的技术边界。视频里展示的是两台机器人挂衣服、合电脑、铺床单,在 2 分钟内完成全套。视觉协调用“点头”这类手势规避了显式通信,这个设计在架构上是合理的——减少通信模块意味着延迟更低,但也意味着机器人的协作精度必须完全依赖于对方动作的实时视觉识别。床单这类变形物体的状态空间极高,视频里没有说明成功率——是 10 次里成功了 1 次,还是连续稳定运行?柔性物体操作在机器人领域仍是一个 open problem,两分钟成功一次不代表系统边界清晰。实验室环境的照明、背景、床单褶皱的初始化状态有没有控制?这些细节直接决定这项能力能否从 Demo 走向生产部署。 两个动态放在一起看,呈现的是同一个张力:AI 能力正在从云端向端侧迁移,但迁移的代价往往被宣传语遮蔽。ds4 引擎如果真能在个人设备上以可接受的质量运行 1M 上下文模型,那它已经把成本从 GPU 集群的租金压到了单台笔记本的电费。Figure AI 如果能稳定处理柔性物体协作,那它打开的是一类新的物理任务空间。但两件事情目前都缺少最核心的那份证据——前者缺质量基准和真实负载下的延迟曲线,后者缺成功率和环境泛化指标。 后续需要追踪的关键指标:ds4 的 GitHub 仓库发布日期、首次 release 的版本号、PR 里的 benchmark 讨论、社区反馈的首次安装成功率;Figure AI 能否放出连续运行未剪辑的完整视频,或者在 ArXiv 上公开 Helix 02 的技术报告细节。在这些证据落地之前,我的判断是:ds4 在工程上展示了一条可行的本地推理路径,但尚未被外部验证;Figure 人形机器人的协作水平比去年有可见提升,但在柔软物体操作上能否稳定跨过可靠性门槛仍不确定。技术判断置信度:ds4 3.5/5,Figure 协作演示 3.5/5,均受限于公开证据的完整度。
反对意见:文章整体批判力度已足够,无需在推测27 tok/s衰减时要求数据支撑,因为该推测属于合理的工程质疑,不应视为证据跳跃。
为什么没放进正文:总编辑拒绝,认为批判类文章自身也应遵循证据链完整性,推测需有数据锚点,否则可能引入新的空泛批评。
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-05-10 07:14:13。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。