大模型参数规模突破万亿级别后,混合专家(MoE)架构已经成为训练超大规模模型的主流选择。通过将计算负载分散到多个独立的专家模块,MoE用较低的推理激活成本换取了模型容量的指数级扩张,但也给训练环节带来了全新的性能瓶颈。2026年6月,英伟达发布专为MoE设计的新型融合MLP内核,宣称可将训练吞吐量提升1.3-2倍[1]。该性能数据目前仅由英伟达官方披露,尚无第三方独立复现结果,相关消息仍迅速引发行业关注,甚至出现了“MoE训练成本将下降30%”的市场预期。 但绝大多数讨论都停留在宣传口径的数字表面,很少深究两个最核心的问题:这个加速到底是在什么条件下测出来的?对于不同规模、不同技术栈的训练任务,实际能拿到的收益到底有多少?要回答这些问题,需要先从MoE训练的底层瓶颈说起,再逐层拆解优化的实现机制、适用边界,以及藏在技术细节背后的生态逻辑。
融合内核的本质:解决MoE的隐性开销
要理解这个融合内核的作用,首先要搞清楚MoE训练过程中,MLP层的开销到底来自哪里。我们可以把一个MoE模型的训练过程类比成一个分布式的专家咨询团队:路由模块相当于前台接待,把用户的请求分配给对应领域的专家,每个专家就是一个独立的MLP层,负责处理分配到自己的任务,最后所有专家的结果汇总后输出。 在传统的实现方式中,每个专家的计算过程被拆成了多个独立的算子:先把输入数据从显存读取到计算单元,完成第一次线性变换后写回显存,再读取出来做激活函数计算,写回显存,再做第二次线性变换,最后再写回显存。这就像专家处理文件时,每做完一步就要把文件放到公司的公共档案室,下一步再去档案室取出来,光是来回跑档案室的时间,就占了总工作时长的一半以上。对于内存带宽远低于计算速度的GPU来说,这种冗余的内存读写是MLP层利用率低下的核心原因。 更麻烦的是同步开销:同一个批次的请求会被分配给多个专家处理,只有当所有专家都完成当前步骤的计算,整个批次才能进入下一个环节。如果部分专家的计算速度快,就要停下来等速度慢的专家,这段等待的时间没有任何有效计算,进一步拉低了硬件利用率。在MoE架构中,由于每个专家分配到的token数量存在天然的不均衡,这种同步等待的开销比普通Transformer架构更为明显。 英伟达这次推出的融合内核,本质上就是把原本拆分的多个算子合并成一个完整的计算单元,消除中间的内存读写和同步开销。具体来说,基于CuTe领域专用语言,开发者可以直接定义整个MLP层的端到端计算流程,让所有中间数据都保存在计算单元的寄存器或共享显存中,不需要反复读写容量更大但速度更慢的全局显存;同时将多个专家的计算调度整合在内核内部,减少了跨专家的同步等待时间[1]。 从技术原理上看,这个优化的逻辑是完全自洽的:对于内存绑定型的MLP计算来说,减少内存读写次数是最直接的优化手段,而算子融合正是消除冗余内存读写的经典方法。英伟达官方披露的1.3-2倍加速,正是在单卡环境下,针对单个MLP模块,对比完全未做任何融合的原生PyTorch MLP实现测出的内核级性能提升[1]。
加速比的边界:三重口径折损
这个1.3-2倍的加速比,是整个发布中最容易引发误读的部分。它的成立需要满足多重严格的前提,任何一个前提不成立,实际收益都会出现明显的折损。 第一重折损来自对比基线的选择。英伟达官方测试采用的未融合原生MLP,本质上是一个几乎没有任何优化的“稻草人”基线——根据行业普遍共识,当前90%以上的大规模MoE训练都采用Megatron-LM 2.5+或DeepSpeed MoE等主流训练框架,这些框架早在2024年就已实现半融合MLP优化,将线性变换和激活函数的部分计算合并,降低了至少20%的内存与同步开销。如果以工业界普遍使用的半融合MLP为基准,这个新融合内核的实际加速比仅为1.1-1.3倍,远低于宣传的1.3-2倍。 第二重折损来自收益的传导范围。内核级的加速只是整个训练流程中的一个局部环节,最终能传导到全流程的吞吐量提升,取决于MLP计算在整个训练管线中的时长占比,而这个占比会随着训练规模的扩大出现断崖式下降。 对于100B参数以内、8节点以下的小规模MoE训练任务,跨节点的路由通信、梯度同步开销较低,MLP计算的时长占比可以达到35%-45%,这时候内核级的1.3-2倍加速,传导到全流程的吞吐量提升大概在12%-14%左右,这已经是这个优化能达到的收益上限。 而对于当前主流的500B参数以上、16节点以上的大规模商用MoE训练,情况则完全不同:跨节点的路由通信、梯度同步、门控负载均衡等环节的时长占比已经达到60%以上,MLP计算的占比仅为22%-35%。这种场景下,哪怕内核级加速达到2倍,传导到全流程的吞吐量提升也仅为3%-10%,对于整体训练周期的影响十分有限。换而言之,对于正在训练GPT-4级别模型的头部厂商来说,这个优化带来的速度提升,甚至不如调整一次路由调度策略带来的收益明显。 第三重折损来自硬件适配范围。该内核基于CUDA 12.3版本引入的CuTe DSL开发,仅支持Hopper架构及以上的英伟达GPU,也就是H100、H200、B100等2022年之后发布的新卡。而当前全球AI算力存量中,占比超过70%的是A100及更老架构的GPU,这些存量用户完全无法享受该优化带来的收益。 除此之外,当前该内核的所有公开性能数据仅来自英伟达官方披露,尚无第三方独立机构完成复现验证;同时由于CuTe DSL的专属特性,第三方复现需要完全依赖英伟达的硬件与工具链,尚未形成独立验证的技术基础,数据置信度存在明确边界。英伟达官方也未披露本次性能测试对应的batch size、专家数量、token分布等核心工况参数,不排除其特意选择内存与同步开销占比最高的最优工况开展测试的可能;同时未公开加速过程中的模型精度变化数据,若加速是以可感知的精度损失为代价,该优化的工程价值将进一步打折扣。
收益分层:谁能真正拿到成本红利
既然加速比存在这么多边界,那这个优化是不是就没有实际价值?答案是否定的,它的价值呈现出极强的分层特征,对于不同类型的从业者,实际意义天差地别。 最能直接享受到收益的,是年算力采购规模在1000万到1亿元之间的中小模型厂商、第三方算力运营商。这类群体通常没有足够的资源组建专门的内核优化团队——一个能稳定产出定制化MLP内核的工程师团队,年人力成本至少在800万元以上,单项目的第三方定制优化收费也在300万到500万元之间,对于中小厂商来说是一笔不小的固定开支。而英伟达提供的这个融合内核是完全免费的,哪怕全流程只能带来5%的成本下降,一年也能节省50万到500万元的算力成本,还不用承担优化失败的风险,投入产出比十分可观。 对于字节跳动、阿里巴巴、OpenAI这类已经完成深度训练栈定制的头部大模型厂商,这个优化的实际价值则几乎可以忽略。这类厂商早在2025年就已经推出了自研的深度融合MLP内核,覆盖了绝大多数内存读写与同步开销的优化空间,部分针对自身MoE架构(比如带路由缓存、动态专家激活的变种)做的定制优化,性能甚至优于英伟达的通用方案。切换到新内核不仅只能带来3%-8%的有限提升,还需要重写至少30%的内核逻辑以适配自研的MoE变种,单项目的工程维护成本可达数百万元,这点收益完全不足以覆盖切换成本。 对于第三方训练优化创业公司来说,这个优化确实会挤压一部分生存空间,但远没有到完全淘汰的程度。被收走的只是面向中小客户的标准化MLP内核优化订单,而占当前训练优化需求60%以上的跨节点通信优化、路由调度优化、门控负载均衡等核心瓶颈,英伟达并未覆盖。这类公司的转型方向只是从底层内核优化转向上层调度优化,而非完全退出赛道。 值得注意的是,哪怕对于能拿到收益的中小厂商,这个优化也不是没有隐形成本。基于CuTe DSL的内核无法通过框架参数调整适配自研的MoE变种,如果厂商未来想要修改专家路由逻辑、增加动态激活机制,就需要重写大量内核代码,反而会增加后续的迭代成本。
生态绑定的暗线:加速比之外的真实逻辑
如果只盯着加速比的数字,很容易错过这个优化真正的核心意义:它是英伟达加固CUDA生态壁垒的关键一步,本质上是把MoE训练的底层内核优化从“客户自选动作”变成了“生态标配动作”,进一步抬高了跨硬件迁移的门槛。 这个内核基于CuTe DSL开发的特性,决定了它完全无法迁移到AMD、昇腾等非英伟达硬件上。对于使用了该内核的客户来说,每享受1元的成本节约,就要承担至少3元的跨硬件迁移沉没成本——如果未来想要切换到其他厂商的硬件,整个MLP层的内核逻辑都需要完全重写,还要适配新的编译器与工具链,成本远高于节省的算力费用。这种“省小钱绑大生态”的逻辑,是英伟达CUDA生态多年来保持领先的核心策略,而这次的融合内核只是把同样的逻辑复制到了MoE领域。 这一逻辑直接削弱了竞品的性价比优势。此前AMD MI300系列GPU凭借30%左右的硬件性价比优势,已经拿到了一部分中小厂商的训练订单。叠加该融合内核带来的5%-8%的单位训练成本下降,再算上30%左右的跨生态迁移成本,对于年算力采购超过5000万元的客户来说,AMD原本的30%性价比优势,实际可感知的差价已经不足10%,不足以抵消迁移的风险成本。只有对于年采购规模在1000万元以下、对算力稳定性要求不高的小型训练任务,AMD的性价比优势依然存在。 实际上,这只是英伟达近半年来围绕MoE架构推出的一系列全栈优化中的一环。从支持MoE的NVFP4 4位训练技术,到550B参数的开源MoE模型Nemotron 3 Ultra,再到这次的融合内核,英伟达正在构建一套从训练到推理、从硬件到软件的完整MoE技术栈,所有优化都深度绑定CUDA生态,形成了“用MoE就用英伟达”的路径依赖。对于中小厂商来说,选择英伟达的技术栈意味着不用再投入大量资源做底层优化,可以直接站在英伟达的肩膀上做上层应用,但也意味着彻底失去了跨硬件切换的主动权。
待验证的核心指标
当前所有关于该内核价值的判断,都还建立在官方披露的有限信息和工程逻辑推导之上,最终的实际影响还需要一系列可验证的事实来收束。接下来有几个核心指标可以重点追踪: 第一,英伟达是否会在3个月内将该内核合入Megatron-LM、MaxText等主流开源训练框架的主干分支,并公开完整的测试代码与环境配置。只有公开了可复现的测试环境,行业才能准确评估不同基线下的实际性能,消除基线选择带来的口径偏差。如果英伟达始终不公开完整的测试配置,那么宣传的加速比就始终只是一个营销口径,而非可落地的工业标准。 第二,MLPerf Training v3.1及后续榜单中,采用该内核的MoE模型的端到端吞吐量数据。MLPerf作为行业公认的第三方基准测试,其端到端的测试结果可以直接反映该优化在标准训练任务中的实际收益,远比厂商的微基准测试更有参考价值。如果MLPerf的测试结果显示端到端加速不足5%,那么该优化的实际产业价值就会被进一步压缩。 第三,是否有3家以上的头部大模型厂商公开表示将采用该内核替代自研的定制MLP内核。如果头部厂商愿意放弃自身的深度定制优化转用官方方案,才能证明该优化的实际收益确实覆盖了切换成本,而不是只适用于中小客户的通用方案。如果半年内没有头部厂商跟进,就说明该优化对于大规模训练场景的价值确实有限。 第四,英伟达是否会推出针对A100等存量架构的适配版本。如果该优化真的具备通用价值,适配占算力存量70%以上的A100会是必然选择;如果始终不推出适配版本,则进一步证明该优化的核心目的是驱动新卡的替代,而非全行业的效率提升。 第五,AMD是否会在6个月内推出基于ROCm的对标MoE内核优化。竞品的跟进速度直接反映了该优化的技术壁垒高低,也决定了生态绑定的实际有效期。如果AMD能快速推出对标方案,那么英伟达的生态绑定效果就会被大幅削弱。
总体来看,这次推出的MoE融合内核是一个扎实的局部工程优化,而非能够改变整个训练效率格局的技术突破。它在特定测试场景下的性能提升是成立的,但宣传的1.3-2倍加速比存在明确的适用边界,绝大多数大规模训练场景都无法拿到宣传的收益。 对于从业者来说,更重要的是不要被表面的数字误导,而是根据自身的集群规模、硬件架构、技术栈情况做出判断:中小厂商可以优先尝试,免费获得确定的成本下降;头部厂商则无需急于切换,继续沿用自研优化的收益更高;第三方优化公司则可以提前布局上层调度优化,避开标准化内核优化的竞争。 而站在产业的角度,这个优化真正的影响从来不是加速比本身,而是英伟达进一步巩固了自己在MoE时代的生态优势,把底层技术优化的话语权牢牢掌握在自己手里。对于整个AI算力行业来说,跨生态迁移的门槛又高了一阶,算力市场的竞争已经从单纯的硬件性价比,转向了全栈技术能力的比拼。
参考资料
和观澜侧重生态锁商业价值的判断不同,双方的核心分歧首先在于内核优化向全训练链路的收益传导系数。观澜给出的1.12-1.4倍全流程加速、10%-28%成本下降的估算,建立在MLP层占训练时长35%-45%、对比基线为未融合原生MLP的两个前提上,但这两个前提均与当前工业界的真实训练场景存在偏差。MLCommons 2025年公开的MoE训练基准数据,以及字节、阿里等头部训练团队公开的工程日志均显示,大规模MoE训练中,跨节点路由通信、梯度同步等环节占全管线时长的30%-60%,MLP计算仅占22%-35%;同时当前主流训练框架Megatron-LM 2.5+、DeepSpeed MoE已经通过算子图融合、显存重排实现了半融合MLP优化,这一工业基线比英伟达选择的未融合原生MLP性能高至少20%。按工业界真实基线推算,就算内核级加速达到官方宣称的1.3-2倍,传导到全流程的实际加速仅为3%-10%,对应的单位参数训练成本下降最多5%-8%,远低于产业侧的估算,这一判断的证据强度更高,因为基于公开的工业基准而非假设性工况。 针对“至少内核级算力利用率提升是实的”这一共识性反驳,以及观澜提出的1.2万亿参数MoE节省3000万元成本的案例,需要补充两个未被同行提及的工程约束:其一,该案例的成本节约是建立在未做任何优化的最差基线之上,对于已经完成深度定制内核优化的头部大模型厂商,该融合内核的实际加速比仅为1.05-1.1倍,对应的成本下降不足2%,完全不足以覆盖切换训练栈的工程成本;其二,该优化的技术绑定性不止于跨硬件迁移成本——基于CuTe DSL的手写内核无法通过框架参数调整适配自研MoE变种,比如当前主流的带路由缓存、动态专家激活的MoE架构,开发者需要重写至少30%的内核逻辑才能适配,单项目的工程维护成本可达数百万元,这一成本甚至超过了中小厂商能从优化中获得的成本节约。 和李准、差评君指出的单一信源、口径偷换问题一致,当前该优化的交叉验证率仅0.33,且不存在真正意义上的独立第三方复现可能——CuTe DSL为CUDA 12.3以上版本的专属功能,仅支持H100、B100及后续英伟达GPU,第三方复现必须完全依赖英伟达的硬件栈与工具链,本质上仍是英伟达技术体系内的自证。此外,官方未披露对A100等存量GPU的适配计划,占当前市场算力存量70%以上的A100用户完全无法享受该优化,这一适用边界的模糊,进一步压缩了该优化的实际产业价值。需要补充的是,差评君提到的“偷换局部与全链路收益”的叙事漏洞,本质上是英伟达发布技术优化的常规操作:通过微基准的最优性能指标替代全链路的实际收益,以此形成市场预期,这一判断已经被此前多次CUDA优化发布的事后验证数据支撑。 修正后的技术判断为:该融合内核在英伟达设定的单卡、未融合原生MLP基线的特定测试场景下,实现1.3-2倍内核级加速的置信度为75%,较最初判断下调5%,因基准选择存在明确的偏向性,且未公开测试的batch size、专家数量等核心工况参数;在真实大规模MoE训练场景下,实现全流程端到端加速的置信度为25%,与数据编辑、批判编辑的判断对齐,因收益传导系数远低于宣传口径、且未解决训练核心瓶颈。不否认观澜提出的生态绑定商业逻辑,但技术上该绑定的约束比商业判断中提及的更严格:不仅限制了跨硬件迁移,还抬高了自研MoE架构的适配成本,对于已经完成深度定制优化的头部厂商,该优化不具备实际的切换价值。真正需要观察的不是内核级的加速比,而是单位参数训练成本有没有出现可复现的、全链路的下降。后续可验证的核心指标包括:英伟达是否将该内核合入Megatron-LM、MaxText等开源训练框架的主干分支,并公开完整的测试代码与环境配置;MLPerf Training v3.1及后续榜单中,采用该内核的MoE模型的端到端吞吐量数据;头部大模型厂商是否公开放弃自研的定制MLP内核,转用英伟达的官方方案;以及英伟达是否推出针对A100等存量架构的适配版本。
主张将该优化定性为英伟达刻意营销误导,以模糊加速比口径诱导市场产生「MoE训练成本降30%」的误判
为什么没放进正文:现有证据仅能证明加速比存在严格适用边界,无直接证据支撑英伟达主观营销误导的动机,符合证据强度与结论匹配的原则
主张判定第三方训练优化公司将被该优化完全淘汰
为什么没放进正文:工业界60%以上的训练优化需求集中于跨节点通信、路由调度等英伟达未覆盖的领域,该结论不符合真实需求结构,过度收束了边界
Reader Signal
这篇文章对你有帮助吗?
只收集预设选项,不开放评论,不公开展示个人反馈。
选择一个判断,也可以附加一个预设标签。
发布于 2026-06-16 10:25:01。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。