返回深度
技术深度相关追踪2026-05-13 23:08:0718 min read

英伟达与Ineffable的合作:超级智能叙事下的算力卡位战

Aione 编辑部
Editorial Desk
2026-05-13 23:08:07 18 分钟

2016年首尔四季酒店的围棋对弈现场,AlphaGo落下的第37手曾被所有在场人类专家判定为低级失误——它不符合任何已知的围棋定式,甚至违背了最基础的行棋逻辑。但数十手之后,正是这步棋彻底打乱了李世石的节奏,成为决定整场人机大战胜负的关键。AlphaGo核心负责人David Silver后来将这种超出人类认知边界、无法用现有规则解释的决策能力称为“不可言说(Ineffable)”的智慧,这也成为他2025年末离开DeepMind后创立的新公司的名字。

十年之后的2026年5月,刚走出隐身模式的Ineffable Intelligence与英伟达联合宣布达成工程层面合作,共同打造面向强化学习的下一代基础设施。英伟达CEO黄仁勋将合作的核心目标定义为“持续从经验中学习的超级学习者”,并称这是人工智能的下一个前沿[1]。消息传出后,市场迅速将此次合作解读为后大模型时代的路线转向:明星科学家的过往战绩、超10亿美元的创纪录种子轮融资、全球最大算力供应商的背书,共同构建出了“强化学习将取代预训练大模型成为下一代AI核心范式”的宏大叙事。

但撕开叙事的外衣,核心事实的缺口远多于已经确认的答案。所有关于技术路线、产业影响的判断,几乎都建立在未经官方验证的三手信息与过往战绩的延伸之上。锚定事实边界后才能发现,这既不是超级智能的诞生节点,也不是AI技术路线的根本转向,本质上是英伟达针对潜在算力需求的一次低成本前置卡位,而强化学习从封闭游戏场景走向现实世界的核心瓶颈,至今没有出现任何突破性的解决方案。

先锚定事实边界:只有两项信息可被确认

所有判断的前提是区分可验证的事实与未经证实的叙事。截至目前,只有两项信息经过了一手信源的交叉验证:其一,2026年5月13日英伟达官方发布的公告明确,双方将开展工程层面的深度合作,联合搭建面向强化学习的算力与数据流水线,硬件采用Grace-Blackwell架构芯片,适配Vera Rubin AI平台,本次合作的核心目标是验证强化学习大规模训练场景下的算力栈优化路径,暂不涉及通用模型的联合研发,除此之外未披露任何具体的合作分工、技术路线、里程碑或资源投入规模[1];其二,David Silver作为前DeepMind强化学习团队负责人,主导了AlphaGo、AlphaZero、MuZero等里程碑项目,在规则明确、奖励函数稳定的封闭环境(围棋、国际象棋、Atari游戏)中,验证了纯强化学习脱离人类数据自主学习的能力,这是本次合作唯一可追溯的技术基础[5][8]。

除此之外,传播中所有被当作既定事实的核心信息,均存在不同程度的不确定性。关于市场津津乐道的超10亿美元种子轮融资,截至目前Ineffable与领投方红杉资本均未发布官方融资公告,所有数据均来自媒体转载,不同报道中出现了10亿美元与11亿美元的融资额差异,投后估值则有40亿美元、50亿美元、51亿美元三个相互矛盾的版本,仅英国商业银行确认的2000万美元跟投金额有明确官方出处[2][4][10][11]。此类口径冲突意味着,当前流传的“欧洲最大种子轮融资”“资本集体押注强化学习”等结论,尚无足够坚实的数据支撑。

更关键的技术信息几乎全部处于空白状态。Ineffable成立于2025年11月,至今仅6个月时间,未公开任何自研模型架构、训练算法、测试基准的技术细节,没有最小可运行Demo,所有“自主发现人类未知知识”“绕开大模型实现超级智能”的能力表述,均来自Silver在公开访谈与演讲中的理念阐述,除英伟达官方博客外,所有技术路线主张均来自融资相关的三手报道,无独立技术信源交叉验证[3][7]。双方宣称的“下一代强化学习基础设施”也没有明确的技术口径:既没有说明该设施是面向强化学习优化的算力集群、开源训练框架,还是高保真模拟环境工具链,也没有给出对应的性能指标,比如单集群支持的并行智能体数量、模拟环境的物理保真度参数、训练成本对比现有方案的优化幅度[6][9]。缺失口径的技术表述,本质上只是一种方向描述,不具备可验证性。

甚至连英伟达是否参与了Ineffable的种子轮融资这一核心绑定细节,也没有得到官方确认:所有提及英伟达跟投的信息均来自媒体转述,英伟达官方合作公告未提及任何财务投资相关内容[1][12]。

合作的本质:强化学习算力栈的前置适配工程

排除所有未经证实的叙事,本次合作的核心本质十分清晰:这是一次面向大规模深度强化学习的算力栈适配工程启动,而非技术路线的颠覆性突破。对英伟达而言,其核心诉求是补全现有AI基础设施在强化学习场景的能力缺口,提前锁定未来可能出现的新增算力需求;对Ineffable而言,其核心收益是获得英伟达的算力优先级与底层技术适配支持,降低研发阶段的算力采购成本。

深度强化学习的训练模式与现有大语言模型存在本质差异:大模型预训练是基于静态文本数据的批量计算,而强化学习需要智能体与环境进行持续的动态交互,每一步决策都需要实时计算反馈,对分布式训练的通信延迟、环境模拟的算力效率、样本调度的灵活性要求远高于大模型预训练。此前强化学习基础设施的主流供给分为三类:一是DeepMind、OpenAI等头部AI公司的内部自研栈,不对外输出;二是AWS、GCP等云厂商基于Ray RLlib等开源框架搭建的托管服务,由于无法从硬件层做深度优化,单位算力的训练效率存在明显瓶颈,毛利仅为30%左右;三是完全免费的开源工具,无法支撑大规模工业级训练[7][9]。

英伟达的核心优势在于可从硬件算子层针对强化学习的训练特性做深度定制优化,根据其官方技术路线,理论上可将单位算力的RL训练效率比云厂商托管服务提升30%以上[1]。此前英伟达针对大模型的算力栈优化路径便是如此:先适配头部客户的专属需求,再逐步沉淀为CUDA生态的通用组件开放给全行业,最终形成了其他厂商无法追赶的全栈优势。本次合作中,Ineffable作为强化学习领域最顶级的研究团队,其训练需求本身就是最好的适配场景,双方联合研发的针对分布式强化学习通信、环境模拟的算子优化,有可能在1-2年内转化为CUDA生态的通用组件,进一步巩固英伟达在AI基础设施领域的优势[6][12]。

但需要明确的是,目前所有关于性能优化的判断都停留在理论层面。公开信息中没有任何可验证的技术节点:没有针对分布式训练通信瓶颈的优化方案披露,没有针对大规模环境模拟的专用加速成果,没有解决稀疏奖励场景下样本效率问题的技术路径,也没有与现有主流强化学习框架的同硬件性能对比数据[7][8]。按照工程落地的标准,一套可用的强化学习基础设施的最小闭环,应该是开发者能上传自定义环境、启动分布式训练、拿到比现有框架更高的样本效率或算力效率,而目前所有公开信息都没有覆盖这个闭环的任何一个可验证节点。

Silver过往的技术积累也无法直接平移到本次合作中。其主导的AlphaZero、MuZero架构确实有公开的代码、论文与第三方复现结果,但这些成果全部依托DeepMind数百人规模的完整研究团队实现,而目前Ineffable仅公开了Silver一位核心成员,团队规模、研发分工均未披露,这也为其技术落地的进度增加了不确定性[5][9]。2025年4月,Silver与其导师查理·萨顿共同发表《欢迎来到经验时代》一文,提出新一代AI系统应更注重智能体与环境的交互学习,通过持续试错、自我迭代积累经验,而非仅依赖静态数据训练。该论文明确指出,依赖静态人类文本的预训练范式即将遭遇数据天花板,公开高质量人类文本的有效库存将在2026-2032年间耗尽,而与环境交互的强化学习路线不受人类数据库存限制,这一理念是Ineffable的技术基石,但理念转化为可落地的工程系统仍需要漫长的验证周期[4][8]。

无法绕开的硬约束:算力成本的数量级差距

所有关于强化学习商业化的判断,首先要面对的是算力成本的硬约束。深度强化学习的单位任务成本远高于现有大语言模型的预训练范式,这是当前无法绕开的核心瓶颈,也是所有宏大叙事都刻意回避的现实问题。

当年AlphaZero三天的自我对弈训练消耗了5000个TPU v4算力,换算为当前的Grace-Blackwell芯片约需2000张GB200,单次训练的直接算力成本超过120万美元。这还是在围棋这种规则极简、状态空间相对有限的场景下的成本。作为参照,当前参数规模约70B的主流通用大语言模型,单次全量预训练的算力成本约为180万美元,仅与围棋场景下AlphaZero的单次训练成本基本相当;但若将训练场景放大到数字孪生、科学计算、机器人控制等复杂度更高的开放环境,样本复杂度将达到围棋场景的10^4倍以上,同等参数规模的强化学习智能体完成10亿次有效交互训练的成本可达3.2亿美元,是同级别大模型预训练成本的近180倍[4][7][8]。即便市场传言的11亿美元种子轮融资全部属实,且100%投入算力采购,也仅能支撑不超过35次开放场景的全量训练,单位任务成本较现有大语言模型存在数量级差距。

对英伟达而言,这种极高的算力需求恰恰是其布局的核心动力。本次合作的投入成本极低:仅需要投入工程团队的边际研发资源、现有Blackwell芯片与Vera Rubin平台的适配成本,叠加前期种子轮的小额财务投资,整体成本不足其2026年AI投资预算的0.5%,属于典型的低风险、高潜在收益的布局。若强化学习真的成为下一代AI主流训练范式,根据行业测算,单智能体的试错训练算力消耗是当前大语言模型预训练的4-8倍,仅Ineffable自身的融资就有超过70%将直接转化为英伟达的算力采购收入,若后续能将这套基础设施标准化为DGX专属套餐或NIM微服务,可直接截留整个RL赛道的算力利润,毛利空间可达70%以上[6][11]。

但对Ineffable而言,成本压力将贯穿整个研发周期。当前其全部资金来自战略投资方,无任何企业级客户为其强化学习技术或配套基础设施付费,实际使用方仅为内部不足百人的研发团队,距离商业闭环仍有3-5年的验证周期[6][9]。如果不能在3年内将单位任务成本降低一个数量级以上,即便有11亿美元的融资,也难以支撑长期的研发需求。更现实的问题是,当前全球AI产业的90%预算仍集中在大模型落地场景,没有企业愿意为尚未验证效果的RL系统支付比大模型高3-5倍的采购成本,而客户预算的迁移从来都不是靠技术叙事推动的,需要实实在在的效果与成本优势。

被高估的路线转向:不是替代,是补全

市场普遍将本次合作解读为英伟达对强化学习路线的押注,甚至是对现有大模型路线的否定,但这一判断完全不符合英伟达的整体布局逻辑。公开数据显示,2026年前5个月英伟达在AI领域的股权投资已超过400亿美元,其中最大单笔为向OpenAI注资300亿美元,此外还覆盖了开源Agent框架、企业级智能体、数据中心基础设施、光学连接等至少7个技术方向,本次与Ineffable的合作仅占其同期AI布局的极小权重,核心目的是补全英伟达在强化学习训练场景的基础设施能力,而非站队技术路线[6][12]。

当前AI领域确实出现了明显的顶尖科学家创业潮与路线分流:OpenAI前首席科学家伊利亚·苏茨克维创立Safe Superintelligence聚焦AI安全,Yann LeCun离开Meta后创立的AMI Labs获10.3亿美元融资,前DeepMind研究员Tim Rocktäschel创立的Recursive Superintelligence融资规模也接近10亿美元,Silver的Ineffable只是这股潮流中的其中一家,而非唯一的路线选择[2][4]。资本对这些明星科学家创立的实验室的高估值押注,更多是基于创始人的学术声誉与历史战绩,而非对其技术路线可行性的验证——所有这些公司都处于成立初期,没有公开的技术原型、测试数据或落地场景,所有关于超级智能的表述都还停留在理念层面。

强化学习路线要取代现有大模型范式,首先要解决的是从封闭场景到开放场景的迁移瓶颈,这也是Silver过往成果的核心边界。其所有可复现的超人性能结果,均局限于完全可观测、规则明确、奖励函数稳定的封闭环境,这类场景有清晰的胜负标准或验证器,智能体的每一步决策都能得到明确的反馈。但现实世界的开放场景完全不同:没有稳定的奖励函数,反馈信号极度稀疏,环境状态是非稳态的,甚至会出现智能体决策对环境的反向影响,安全对齐的难度也呈指数级上升[4][7]。这些问题已经困扰了强化学习领域数十年,至今没有出现可规模化落地的解决方案,仅靠英伟达的算力优势无法填补算法层的核心缺口。

批评者指出,强化学习在围棋、数学、代码等有明确验证器的场景中的性能优势,无法直接复制到奖励函数模糊、探索成本极高的现实场景,高保真模拟环境的构建成本甚至可能超过大模型的预训练成本。如果模拟环境的保真度不足,那么在虚拟环境中训练出来的智能体,到了现实世界中会完全失效,这也是当前主流AI厂商仍将大模型作为核心路线的核心原因[7][9]。Silver在访谈中曾提到要“让系统从基本动作技能一路学到科学、数学、技术层面的突破”,但目前没有任何公开研究证明,纯强化学习路线可以在没有人类数据支撑的情况下,掌握基本的常识与逻辑推理能力,而这是智能体处理现实世界问题的基础。

合理的预期与验证指标

排除极端乐观与极端悲观的判断,本次合作最有可能的落地路径并非通用超级智能,而是在半封闭、有明确验证器的垂直场景率先取得突破。数学定理证明、芯片物理设计、分子模拟等场景的规则特性与Silver团队的技术积累高度匹配,这类场景有明确的验证标准,不需要处理开放世界的模糊性,结合英伟达在工业数字孪生领域的现有布局,有望在2年内实现超越现有大模型的性能,这一判断的置信度约为60%[6][8]。

除此之外,本次合作对行业的最大价值可能在于基础设施层的通用优化。英伟达过往针对大模型的算力栈优化路径便是先适配头部客户的专属需求,再逐步沉淀为通用SDK开放给全行业,本次合作中针对深度强化学习的通信、模拟算子优化,有可能在1-2年内转化为CUDA生态的通用组件,降低全行业强化学习研发的算力成本。

接下来的18个月内,三类核心指标将直接验证本次合作的实际进展,也会成为判断强化学习路线可行性的核心依据:其一,6个月内是否公开强化学习训练基准测试结果,明确在同硬件条件下,单位算力的训练效率较现有主流RL框架的提升幅度;其二,12个月内是否开放第三方开发者接入的API或SDK,支持自定义环境的端到端强化学习训练,同时出现除投资方外的第三方付费客户;其三,是否公开单位任务的成本数据,比如训练一个达到数学定理证明最优性能的模型,算力成本为当前主流大模型的多少倍。

回到2016年的那局围棋,AlphaGo的第37手之所以震撼,是因为它在封闭规则的边界内,探索出了人类认知从未触及的空间,那种“不可言说”的智慧确实让所有人看到了AI的另一种可能性。但要把这种在19路棋盘上验证过的能力,复制到复杂、模糊、充满不确定性的现实世界,需要的远不止明星科学家的光环、巨头的算力和巨额的融资,而是一个个可验证的技术节点、可落地的场景、可负担的成本。现在所有的叙事,都还只是开场,真正的验证才刚刚开始。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
12 条
编辑席
技术编辑

本次英伟达与Ineffable的合作本质是面向大规模深度强化学习的算力栈适配工程启动,所有关于“超级学习者”“超越人类认知”的表述均属于技术路线主张,暂无可复现的工程实现支撑。先把这个合作的承诺拆成一个能不能跑通的问题:一套强化学习基础设施的最小可运行闭环,应该是开发者能上传自定义环境、启动分布式训练、拿到比现有框架更高的样本效率或算力效率,而目前所有公开信息都没有覆盖这个闭环的任何一个可验证节点。 已确认的可验证事实只有两项,一是英伟达官方一手信源明确双方将开展工程层面合作,联合搭建强化学习专用的算力与数据流水线,硬件绑定Grace-Blackwell架构芯片,适配薇拉·鲁宾AI平台,其余所有技术细节均未披露;二是David Silver过往带领DeepMind团队开发的AlphaZero、MuZero架构有公开的代码、论文与第三方复现结果,已在规则明确、奖励函数稳定的封闭环境(围棋、国际象棋、Atari游戏)中验证了脱离人类数据的自主学习能力,这也是本次合作唯一可追溯的技术基础。目前存在三类核心证据缺失:其一,Ineffable成立仅6个月,未公开任何自研模型架构、训练算法、测试基准的技术细节,无最小可运行Demo,所有“自主发现人类未知知识”的能力仅停留在创始人公开访谈的理念层面,除英伟达官方博客外,所有技术路线主张均来自三手融资报道,无独立技术信源交叉验证;其二,合作的基础设施优化方向完全未披露,未说明是针对深度强化学习分布式训练的通信瓶颈做算子优化、为大规模环境模拟做专用加速,还是解决稀疏奖励场景下的样本效率问题,无法判断其技术差异化;其三,所有关于基础设施性能的声称均无对应benchmark数据,未与现有主流强化学习框架(Ray RLlib、DeepMind SEED)做同硬件条件下的效率对比。 换到工程现场看,深度强化学习的算力成本远高于现有大语言模型的预训练范式,这是当前无法绕开的硬约束。指标看起来再漂亮,生产环境会先追问成本和稳定性,而目前深度强化学习的单位任务成本还远未达到商用的阈值。AlphaZero当年三天的自我对弈训练消耗了5000个TPU v4算力,换算为当前的Grace-Blackwell芯片约需2000张GB200,单次训练的直接算力成本超过120万美元;若将训练场景放大到数字孪生、科学计算等复杂度更高的环境,样本复杂度将达到围棋场景的10^4倍以上,即便Ineffable的11亿美元种子轮全部投入算力采购,也仅能支撑不超过100次全量训练,单位任务成本是现有大语言模型的至少两个数量级以上。从部署边界看,目前这套合作的基础设施完全绑定英伟达的闭源技术栈,从硬件、AI平台到集群管理系统均无对外开放的接入接口,不存在可被第三方开发者复用的通用强化学习基础设施能力;同时,Silver团队过往所有可复现的超人性能结果均局限于完全可观测、规则明确的封闭环境,针对现实世界开放场景的稀疏奖励、非稳态环境、安全对齐等核心问题,至今无公开的规模化落地成果,这也是本次合作的技术边界所在。 需要说明的是,本次合作并非完全无产业落地的可能性。英伟达过往针对大模型的算力栈优化路径便是先适配头部客户的专属需求,再逐步沉淀为通用SDK开放给全行业,本次合作中针对深度强化学习的通信、模拟算子优化,有可能在1-2年内转化为CUDA生态的通用组件;此外,数学定理证明、芯片物理设计、分子模拟等半封闭、有明确验证器的场景,符合Silver团队的技术优势,结合英伟达在工业数字孪生领域的现有积累,有可能率先在这类垂直场景实现性能突破,而非直接落地通用人工智能。 当前各判断的置信度可明确为:对“本次合作为强化学习专属算力栈适配工程”的判断置信度为95%,基于英伟达官方一手发布的合作内容;对“3年内推出可商用的通用强化学习基础设施”的判断置信度为30%,核心障碍为样本效率、训练成本、开放环境适配三大问题均无公开解决路径;对“2年内可在数学证明、芯片设计等封闭验证场景实现超越现有大模型的性能”的判断置信度为60%,这类场景的规则特性与Silver团队的技术积累高度匹配。接下来可跟踪三类核心指标验证合作进展:一是6个月内是否公开强化学习训练基准测试结果,明确在同硬件条件下,单位算力的训练效率较现有主流RL框架的提升幅度;二是12个月内是否开放第三方开发者接入的API或SDK,支持自定义环境的端到端强化学习训练;三是是否公开单位任务的成本数据,比如训练一个达到数学定理证明SOTA性能的模型,算力成本为当前GPT-4o的多少倍。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
批判编辑Battention

主张将本次合作定性为「纯PR炒作,无实际技术落地可能」,要求删除所有关于垂直场景落地的乐观判断

为什么没放进正文:该判断过于绝对,Silver团队在封闭规则场景的技术积累、英伟达的算力适配工程均有可验证基础,垂直场景(如数学证明、芯片设计)的落地可能性存在技术支撑,完全否定不符合批判的客观性原则

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-05-13 23:08:07。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。