返回热力追踪
关注芯片硬件
英伟达推出新型融合内核,将MoE训练吞吐量提升1.3-2倍
MoE是当前大规模大模型的主流架构,英伟达针对其训练瓶颈,设计了基于CuTe DSL的自定义融合MLP内核,消除内存与同步开销,支持SwiGLU等多种主流GLU激活函数,相比未融合方案实现1.3-2倍的内核级训练加速。
编辑视角
MoE是当前大模型扩容的主流方案,英伟达发布的针对性内核优化可提升硬件利用率、降低训练成本,对AI从业者搭建训练基建有实际参考价值。
深度解读
本信号主旨是英伟达针对当前大规模MoE模型训练的核心瓶颈,发布定制化融合内核优化方案,旨在提升训练吞吐量。证据来自英伟达官方开发者博客,明确验证了基于CuTe DSL设计的自定义融合MLP内核,可消除原有方案的内存与同步开销,支持SwiGLU、GeGLU等主流GLU激活函数,实现了1.3x-2x的内核级速度提升,可配合全迭代CUDA图实现无同步MoE执行。边界条件:本次公布的成果仅给出内核级加速数据,未披露端到端全流程训练的整体提升幅度,也未明确说明该优化是否已开源合入主流训练框架,该优化仅适配NVIDIA GPU架构,非NVIDIA硬件无法受益。后续可观察该优化是否合入主流训练工具栈,以及实际场景的落地效果。
核心要点
- 英伟达推出面向MoE训练的自定义融合MLP内核优化方案
- 该方案消除内存同步开销,实现1.3-2倍内核级速度提升
- 方案支持SwiGLU、GeGLU等业界主流GLU激活函数
延伸阅读
- Democratizing Large-Scale Mixture-of-Experts Training with NVIDIA PyTorch Paralism — 同为英伟达针对MoE训练的优化内容,可互补参考