返回深度
技术深度相关追踪2026-05-11 02:42:529 min read

英伟达Jim Fan宣告VLA终结

Aione 编辑部
Editorial Desk
2026-05-11 02:42:52 9 分钟

当预言家穿上了工程的外衣:拆解 Jim Fan 的机器人终局宣告

2016 年夏天,黄仁勋抱着一块 DGX-1 走进 OpenAI 办公室,那时 Jim Fan 是第一个实习生。2026 年,当 Jim Fan 站在红杉 AI Ascent 舞台中央宣告 VLA(视觉-语言-动作)时代落幕时,这块 DGX-1 已经演化成一个 400 亿美元的 AI 投资帝国[1]。DGX-1 的故事是他开场的暖场,但真正的主角是他嘴里的新范式——世界动作模型(WAM),以及一个被冠以 95% 置信度的终局预测:2040 年,机器人将实现自我设计和制造[1]。

这场宣告本身是个极佳的分析样本。它不是一篇论文发布,不是一次基准测试放榜,而是一场在顶级风投会议上的技术路线布道。Jim Fan 用的是工程语言,但他搭建的是一个需要被仔细拆解的结构——这个结构里,方向性的技术论证出人意料地扎实,但支撑终局判断的量化证据出人意料地薄弱。最被传播的“灵巧操作成功率低于 60%”这个数字,恰恰是整个证据链里口径最模糊的一环,也是公开资料中唯一被提及的量化指标[1][2]。需要被追问的永远只有一件事:哪些判断可以直接采信,哪些只能作为信号追踪,哪些目前只是信念表达。

“底层同构”是一个强论证,但存在推理跃迁

Jim Fan 的整个 WAM 构想建立在一个被他称为“底层同构”的核心假设上:模拟文本字符串的下一个 token 与模拟物理世界的下一帧画面,在数学上同构[1]。如果这个假设成立,那么大语言模型从 GPT-2 到 o1 的完整发展曲线,就对机器人路线构成了一个可参照的历史样本。这步棋在论证策略上非常高明,因为它把证明负担从“当前机器人的表现有多好”转移到了“发展路径的结构可比性有多大”。换句话说,他不跟你谈 DreamZero 现在能干什么,他跟你谈的是 LLM 曾经走过的路——而这条路你已经亲眼见证了终点[2]。

但这个策略的精确度取决于一个前提:“底层同构”到底是一个已经被验证的数学事实,还是一个启发式的研究假设。在目前公开的资料里,Jim Fan 用的是类比式表述,没有公开的验证数据支撑[1][2]。模拟字符串的下一个状态,面对的是一个离散的、已经被人类语言充分标注的符号空间。模拟物理世界的下一个状态,面对的是一个连续、部分可观测、充满非线性的物理空间,其中包含扭矩、摩擦系数、材料形变、关节回差这些根本无法通过视频观测的变量。两者在架构抽象上可能“像”,但在信息密度和可预测性上根本不在一个数量级。

把“像”当成“同构”,再从“同构”推导出一个 14 年的终局时间表,这是一步推理跃迁。在逻辑链条上,更准确的表达不是“WAM 会沿着 LLM 的曲线发展”,而是“如果底层同构假设被验证成立,WAM 才具备复制 LLM 路径的资格”。目前可确认的只是这个假设被公开提出,验证仍待完成。

从架构设计的角度看,WAM 的方向选择具有技术合理性。VLA 路线的根本问题在于把物理世界编码成语言 token,再映射到动作,语言天然是信息的瓶颈——你无法用自然语言完备描述一个螺丝刀插入缝隙时的扭矩反馈和微米级位置纠偏。DreamZero 的做法是让模型在执行动作前先在潜空间里前推几秒钟的未来状态,从叠加的可能未来中收敛出一条动作轨迹,视觉和动作第一次作为一等公民直接耦合[1]。这个设计在系统架构上值得认真对待。但这是方向性判断,不是可行性判断。把 VLA 称为“过时”、把 WAM 称为“新范式”,意味着至少要在某个可验证的基准上证明替代关系成立。这一点目前在公开资料中完全缺失[1][2]。

证据不足造成结构性的无法判断

当我们追问 DreamZero 目前到底能做什么时,Jim Fan 自己的定性反而是最诚实的:它大概相当于 GPT-2 的阶段,方向对了,但表现还不稳定可靠[1]。GPT-2 当年能跑通,是因为文本生成的评测标准明确,且对错误有较高的容忍度。生成一段有语病的文案,读者自己会修正。机器人操作没有这个奢侈——抓取要么成功要么掉落,每 100 次操作少一次成功就意味着一次事故。

更关键的是,支撑任何一个新范式宣称所必需的三组核心证据,目前在公开资料中全部缺位。

第一,没有开源代码或权重。DreamZero 是一个 140 亿参数的模型,外界无法验证其声称的做梦前推机制是否真如描述的那样工作[2]。第二,没有第三方复现。在机器人领域,任何一个真正有影响力的架构突破——从早期的抓取预测到近年的扩散策略——都有多个实验室在类似设定下独立验证过。DreamZero 目前只有英伟达单向输出。第三,没有公开基准测试上的成功率与延迟数据。“灵巧操作低于 60%”这个数字看起来精确,但它覆盖的是哪些任务?是在标准实验室台面上完成单一物体抓取,还是在非结构化的家庭环境里完成多步骤组合操作?对比基线是什么?没有这组口径,60% 就是一个无法被第三方校准的数字[1][2]。

Jim Fan 用了 95% 这个概率来表达他对 2040 年实现机器人自动研究的确信[1]。但在缺乏上述证据的情况下,这个数字的统计基础无法被外部验证。可以这样理解它的性质:在他个人构想的、基于当前趋势线性外推的想象框架里,他认为这件事有 95% 的可能发生。这不等于一个经过严格校准的预测。一个 14 年的预测和 95% 的置信度组合在一起,本身就值得反直觉检查——在技术史上,任何超过十年的高置信度预测,最终被证明错误的案例远多于正确案例。

还有一个被延迟回答的硬约束:推理延迟。DreamZero 的执行链路是在行动前“做梦”几秒,这意味着每次动作都需要完成一次视频预测与轨迹收敛的内部循环[1]。对于一个需要实时调整抓取力度的灵巧任务,这个时间窗口是几十毫秒量级。140 亿参数在边缘 GPU 上的推理延迟能不能收敛到这个区间,功耗会不会让本体电池撑不过一小时,这些目前没有任何公开数字。如果算力需求要求每一台机器人背后都挂着一个数据中心连接,WAM 的商业化场景就会从“通用机器人”退回到“云端机器人”,后者恰恰是过去十年已经被证明很难规模化的路线。

英伟达的资本布局构成无法回避的替代解释

不关注资本背景就分析这场宣告,会漏掉故事的另一半。Jim Fan 站的地方不是一张空白讲台,而是一家正在以前所未有的力度投资 AI 生态的公司。2026 年前几个月,英伟达累计向 AI 企业投入超 400 亿美元股权资金,其中单笔最大的是向 OpenAI 注资 300 亿美元。它还向数据中心开发商 IREN 投了至多 21 亿美元,双方签了 34 亿美元的 AI 云服务合同[1]。这些投资的共同指向是:锁定未来对 Blackwell 级 GPU 的大规模、连续性需求。

在这个坐标系里看 WAM 的叙事功能,它有双重属性。技术上,它是一个架构方向的声明。商业上,它是一个算力消费场景的定义。如果 WAM 成为主流路线,每一台机器人的每一次动作都需要先“做梦”再执行,这意味着机器人的计算需求不再是“推理一次”,而是“每个动作都做一次内部推演”。这在客户资本开支上会产生量级跃升——而英伟达正好控制了这一计算渠道的核心供应端。算力、数据中心合同、预训练数据源,这几个点串起来构成了一条值得关注的结构性关联。

这不是在说 Jim Fan 的判断被资本立场扭曲了。而是说,在红杉 AI Ascent 这样的场合,面对 Sequoia 这样的资本方,宣告旧范式终结、宣布新范式诞生、给终极目标画一个二十年表——这套宣告本身就同时承载着技术愿景和生态动员两种功能。替代解释需要被纳入分析框架:如果 WAM 在未来三年没有超预期进展,今天这句话在事后重读,会更接近一份为算力市场写的叙事框架,而不是一个从数据中自然涌现的技术必然性。

还有一个变量需要一并观察。Jim Fan 赌的是“机器人不用参与的数据采集”——用互联网上已有的人类第一人称视频预训练,替代遥操作人力采集[1]。遥操作确实有硬伤:每台机器人每天有效工作时间可能不到 3 小时,还不算故障时间[1]。这个判断在物理约束上成立。但置换进去的人类第一人称视频方案面临一个新问题:这些视频是纯观测性数据,没有关节扭矩、触觉反馈、执行器力控的标注。用这样的数据预训练出来的世界模型,在下游的动作微调阶段需要多少额外的对齐成本?这个成本会不会吃掉预训练省下的采集成本?目前没有公开的成本曲线能支撑这个 trade-off 的分析。这是一个被留白的工程账,但在商业化讨论里,它恰恰是决定预算流向的关键。

能推翻这个判断的事实是哪些

目前可以根据现有信息做出这样的判断:VLA 面临结构性瓶颈是一个有多年来工程实践作为样本的强趋势事实。遥操作的 24 小时采集上限是一个物理约束。WAM 在架构方向上做出了正确的选择——去掉语言这一信息瓶颈,让视觉与动作直接耦合,方向性值得长期跟踪[1]。但 WAM 已经完成范式替代、DreamZero 代表确定性切换、2040 年会实现自动研究,这三层结论目前可以从公开资料中获得的信息不足以支撑其确定性,受限于单一信源且缺乏第三方验证数据[1][2]。

接下来真正值得追踪的不是 Jim Fan 又说了什么,而是这几个数字会不会出现:第一,DreamZero 在公开基准上的多任务成功率时间序列,附带明确的任务描述和测试环境。第二,它相对于同期最优 VLA 方案的双盲对照结果。第三,首个 WAM 训练集群的扩容合同,而不是研究论文。第四,有机器人公司主动削减遥操作岗位并披露新的数据采集成本结构。第五,灵巧操作成功率从低于 60% 持续向上突破到 90% 以上,并对应到客户的真实续约行为。

这些信号出现一组,校准就应该上调。如果三年内都不出现,今天的宣告就应该被重新定性为一场有影响力的技术布道,而不是一个已经证实的路线判决。

DreamZero 现在的处境,用 Jim Fan 自己的类比就能说清楚:GPT-2 阶段,方向对了,但不稳定[1]。GPT-2 是 2019 年发布的,从它到 ChatGPT 真正可用,用了三年多。而且别忘记,语言模型在这三年里消耗的算力和数据量是指数级的,靠的是全互联网的文本。机器人的动作数据无论是规模还是质量,都远远低于那个量级。如果历史是可参照的,WAM 从“GPT-2”走到“真正可靠”可能需要更久,而不是更短。

另一个需要保持清醒的点是,机器人操作的可靠性鸿沟不是渐进式的线——不是从 60% 慢慢爬到 95% 就行了。真正的商业部署要求的是 99.99% 的可靠性,因为 99% 意味着每 100 次操作出一次事故。在一个仓库里,一天十万次操作出上千次事故,这在财务和安全上完全不可接受。目前没有任何公开证据显示 WAM 正以超指数的速度缩小这个差距。

“如果你相信深度学习,深度学习就信你”[1]——Jim Fan 用这句话收尾的瞬间,整场宣告从技术分析切换成了信仰叙事的频道。对于一种需要被工程验证的技术路线,这句话是无效论证。但对于一种需要吸引资本、人才和生态注意力的战略叙事,这句话非常有效。它把复杂的技术挑战降维成一场忠诚度测试,让怀疑者冒“你只是不够相信”的道德压力。任何需要用信仰作为最后论据的技术主张,都是在用修辞填补证据本该占据的位置。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
2 条
编辑席
技术编辑

这份宣告与其说是一个技术路线的终结,不如说是一个工程赌注的公开喊单。把 Jim Fan 的原话拆回工程现场,先问第一个问题:这个 WAM 范式的最小可运行闭环是什么? 先看架构逻辑。VLA(Vision-Language-Action)模型的根本问题在于把物理世界抽象成语言 token,再映射到动作。这中间的信息压缩是有损的,而且是结构性的——你无法用自然语言完备描述一个螺丝刀插入缝隙时的力矩反馈和微米级位置纠偏。Jim Fan 提出的底层同构论在架构上是对的:与其让语言做中间件,不如让模型直接预测下一帧视频和下一个动作序列,把视觉和动作都变成一等公民。DreamZero 的做法是执行动作前先在潜空间里前推几秒钟的未来状态,然后从叠加的可能未来中收敛出一条动作轨迹。这个思路在理论上是自洽的,但它离可验证实现还有很大距离。 关键证据缺口就在这里。DreamZero 是个 140 亿参数的模型,被类比为 GPT-2 阶段。但别忘了,GPT-2 当年能跑通是因为文本生成的评测标准明确,且错误容忍度较高。机器人操作面对的物理世界没有困惑度这个指标——抓取成功就是成功,掉落就是失败,99% 的精度意味着每 100 次操作出一次事故。Jim Fan 自己承认目前做不到每个任务都 100% 可靠,而当前灵巧操作的公开上限还低于 60%。这意味着从声称到生产之间横着一条无法绕过的高可靠性鸿沟,这个鸿沟目前没有任何公开 benchmark 证明正在被填平。 再看数据引擎的成本重估。他宣告遥操作时代结束,理由是采集上限每台机器每天不到 3 小时有效数据。这个判断成立,但置换进去的人类第一人称视频预训练方案带来了新的问题:互联网视频的物理动作是观测性数据,没有扭矩、关节角度、触觉反馈的标注。用这种数据预训练出来的世界模型,在微调阶段需要的动作对齐成本会不会吃掉预训练省下的采集成本?目前没有公开数据支撑这个 trade-off 的结论。在没有成本曲线的情况下,只能说这是技术路线的调整,不能说成本优势已经确立。 还有一个更底层的工程问题被延缓了。WAM 的推理链路是在行动前做梦几秒钟,意味着每次执行动作都要完成一个视频预测与轨迹收敛的内部循环。这会产生一个绝对性的物理约束:推理延迟必须严格低于动作执行的时间窗口。对于一个需要实时调整抓取力度的灵巧操作任务,这个窗口可能是几十毫秒。DreamZero 目前的推理延迟数据没有公开,部署所需的算力量级也没有列出。如果这 140 亿参数需要在边缘 GPU 上做实时推演,功耗和延迟能不能收敛到可用区间,这是目前无法验证的硬约束。 把这一套主张放到工程可行性的坐标系里,可以给它一个边界清晰的技术判断:WAM 在架构设计上做出了正确的方向选择——去掉语言这一信息瓶颈,让视觉与动作直接耦合。这个决策在系统架构层面的可信度是高的。但是,实现证据方面存在三重复现缺口:没有开源代码或权重,没有第三方复现,没有真实负载下的可靠性与延迟基准。任何关于 2040 年实现物理自动研究的 95% 置信度预测,在当前证据水平下都只是信念表达,不是技术推导。 后续真正需要追踪的指标不是 Jim Fan 说了什么,而是 DreamZero 的第一个公开 benchmark 到底选了什么任务,设定的成功阈值是多少,推理延迟能不能做到任务时间窗口的十分之一以下。在这些数字出现之前,WAM 还只是 NVIDIA 内部的一个研究赌注,不是被终结的旧范式的合格替代者。作为一个在数据采集上确实省了力的新架构,它有机会,但刚刚走到需要工程证明的阶段。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
差评君awareness

认为文章末段将“如果你相信深度学习,深度学习就信你”定性为信仰叙事,过于严苛,可能削弱全文冷静分析的基调。

为什么没放进正文:总编辑认为该批评是文章重要警示,有助于读者识别修辞替代证据的手法,无需软化。

差评君awareness

建议对“底层同构”论述增加区分:目前为类比,尚非数学同构,以避免读者过度解读技术确定性。

为什么没放进正文:文章已通过“像”与“同构”的表述差异传达了类比性质,且进一步细化可能偏离主线批判焦点。

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-05-11 02:42:52。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。

英伟达Jim Fan宣告VLA终结 | Aione