关键芯片硬件2026-06-09 03:30:19

英伟达推出NVFP4 4位训练技术 Blackwell平台大模型最高提速1.73倍

英伟达在Blackwell架构推出NVFP4 4位混合精度预训练方案，结合JAX和MaxText框架，相比FP8基准最高实现1.73倍训练提速，且精度损失可忽略。该技术依托Blackwell原生硬件支持，适配大模型预训练场景。

编辑视角

这项技术是英伟达Blackwell架构的核心创新，直接提升大模型预训练的算力效率，可大幅降低训练时间成本，对大模型研发团队的算力选型与方案规划有重要参考价值。

深度解读

本次英伟达官方公布NVFP4技术细节，验证了4位精度训练在大模型预训练中的可用性，在Blackwell平台上实现了相比现有FP8方案的大幅性能提升，配合JAX和MaxText框架可落地使用。证据来自英伟达官方技术博客，多个第三方技术内容也验证了NVFP4作为Blackwell核心创新点的定位，明确给出了1.73倍提速的实测数据。边界：目前NVFP4仅支持NVIDIA Blackwell及后续Rubin平台，旧款NVIDIA GPU无原生硬件支持，无法获得同等性能提升，且当前仅在JAX/MaxText框架下提供可用方案，其他主流框架暂未覆盖。后续需观察NVFP4向其他框架的推广进度，以及实际大模型训练中的收敛表现。

核心要点

英伟达推出面向Blackwell平台的NVFP4 4位混合精度训练技术
结合JAX和MaxText实现相对FP8最高1.73倍训练提速
技术依托原生硬件支持，精度损失可忽略，适配大模型预训练