关注芯片硬件2026-06-16 01:30:20

英伟达推出新型融合内核，将MoE训练吞吐量提升1.3-2倍

MoE是当前大规模大模型的主流架构，英伟达针对其训练瓶颈，设计了基于CuTe DSL的自定义融合MLP内核，消除内存与同步开销，支持SwiGLU等多种主流GLU激活函数，相比未融合方案实现1.3-2倍的内核级训练加速。

编辑视角

MoE是当前大模型扩容的主流方案，英伟达发布的针对性内核优化可提升硬件利用率、降低训练成本，对AI从业者搭建训练基建有实际参考价值。

深度解读

本信号主旨是英伟达针对当前大规模MoE模型训练的核心瓶颈，发布定制化融合内核优化方案，旨在提升训练吞吐量。证据来自英伟达官方开发者博客，明确验证了基于CuTe DSL设计的自定义融合MLP内核，可消除原有方案的内存与同步开销，支持SwiGLU、GeGLU等主流GLU激活函数，实现了1.3x-2x的内核级速度提升，可配合全迭代CUDA图实现无同步MoE执行。边界条件：本次公布的成果仅给出内核级加速数据，未披露端到端全流程训练的整体提升幅度，也未明确说明该优化是否已开源合入主流训练框架，该优化仅适配NVIDIA GPU架构，非NVIDIA硬件无法受益。后续可观察该优化是否合入主流训练工具栈，以及实际场景的落地效果。

核心要点

英伟达推出面向MoE训练的自定义融合MLP内核优化方案
该方案消除内存同步开销，实现1.3-2倍内核级速度提升
方案支持SwiGLU、GeGLU等业界主流GLU激活函数