技术深度相关追踪2026-05-19 10:23:5717 min read

Token工厂的叙事与现实：英伟达Vera Rubin的算力重构试验

No.11

Aione Editorial

Aː

Aione 编辑部

Editorial Desk

2026-05-19 10:23:57 17 分钟

2026年5月的戴尔技术世界大会上，黄仁勋没有像往年那样首先公布最新GPU的浮点运算性能，而是在大屏幕上打出了一行核心判断：数据中心是生产Token的工厂[4]。两个极具冲击力的数字随后被抛出：新一代Vera Rubin NVL72机架的单Token推理成本降至传统方案的十分之一，已有五千家企业在戴尔AI工厂部署英伟达的AI工作负载[1]。

这两个数字很快成为科技圈传播的核心，但很少有人注意到，这次发布的本质从来不是一款更快的芯片，而是英伟达对整个算力产业逻辑的一次重构尝试：它第一次试图把过去模糊的、以技术指标衡量的“算力”，变成可量化、可定价、可批量交付的标准化大宗商品。只是在这个宏大叙事的表层之下，所有的性能指标和落地规模，都需要经过严格的口径校准，才能看清其真实的产业分量。

系统级重构：能效提升的真相与边界

很多传播将Vera Rubin的能效提升归因于Rubin GPU的算力堆料，但实际上，这一平台从设计之初就告别了单芯片迭代的思路，是一套由六种芯片深度协同的机柜级系统[8]。整套NVL72机架集成了72块Rubin GPU、36块Vera CPU，搭配第六代NVLink交换机、ConnectX-9超级网卡、BlueField-4 DPU和Spectrum-6以太网交换机，通过整柜级的协同设计实现能效提升[5][9][12]。

其核心技术逻辑是对推理链路的解耦重构。传统的AI推理过程中，预填充（Prefill，即加载用户输入和上下文缓存的阶段，对算力需求极高）和解码（Decode，即逐Token生成输出的阶段，对延迟敏感度极高）两个环节都运行在GPU上，导致GPU资源往往被延迟敏感的解码环节占用，无法充分发挥算力优势。Vera Rubin通过Dynamo软件栈实现了推理链路的拆分：将高算力需求的预填充阶段调度给Rubin GPU处理，将延迟敏感的解码阶段卸载给Groq 3 LPU执行，而推理链路中超过60%的非张量计算任务，则全部交由Vera CPU承接[2]。

这套异构协同的设计，配合硬件层面的参数升级，最终实现了实验室环境下的能效跃升。单块Rubin GPU搭载288GB HBM4内存，带宽高达22TB/s，是上一代Blackwell GPU的2.75倍，足以承载超大模型的长上下文KV缓存存储需求；Groq 3 LPU则通过500MB的片上SRAM和150TB/s的片上带宽，将解码阶段的数据访问延迟降到极低水平[2]；第六代NVLink则实现了整柜72块GPU的高速互联，单GPU双向带宽达到3.6TB/s，大幅降低了跨芯片通信的开销。整套机架总快速内存容量达到75TB，NVFP4精度下的推理峰值性能为3600 PFLOPS，训练峰值性能为2520 PFLOPS[5][9]。

根据英伟达官方披露的实验室测试数据，在混合专家（MoE）模型的推理负载下，Vera Rubin NVL72的每瓦推理吞吐量较上一代Blackwell平台提升10倍，对应仅计算电力消耗的名义单Token成本降至后者的十分之一[3]。搭配独立的Groq LPX推理机架后，整套系统的每兆瓦推理吞吐量最高可提升35倍，一座1吉瓦的数据中心的每秒Token产出，将从传统x86+Hopper架构的200万提升至7亿[2]。

但这一性能指标存在严格的适用边界，多数传播内容刻意模糊了这些限制条件。首先，10倍的能效提升仅针对长上下文MoE模型的推理负载，若运行普通稠密大模型的单轮对话推理，能效提升仅为Blackwell平台的2-3倍；其次，官方公布的单Token成本仅计算了电力消耗，未计入硬件采购摊销、液冷改造、软件适配等全生命周期成本，若按5年折旧周期计算，实际单Token成本的降幅约为40%-60%，远低于宣称的90%；此外，35倍的每兆瓦吞吐量提升是叠加独立Groq LPX机架后的系统级性能，并非NVL72单柜的原生能力[2]。

另外，目前所有性能数据均来自英伟达官方的实验室自测，尚未有MLPerf等第三方中立基准测试机构的公开验证，也没有已交付客户的真实生产负载性能披露。当前市面多数第三方媒体的相关性能报道均基于英伟达官方通稿衍生，未开展独立测试验证，看似多源的公开信息存在较高的同源性[2][3][6][8][10]。其采用的NVFP4低精度计算格式，虽然官方宣称与Blackwell的Transformer引擎完全兼容，但尚无第三方模型迁移的公开测试结果，其精度损失对不同工作负载的影响仍未可知[8]。

价值链重塑：绕开云厂商的商业尝试

如果说技术层面的解耦是Vera Rubin的基础，那么联合戴尔推出AI工厂的商业模式，才是这次发布真正的核心变量。过去十年，全球企业AI算力的价值链一直遵循“英伟达卖芯片给云厂商-云厂商搭建集群提供服务-企业按需采购云算力”的路径，云厂商掌握了企业客户的分发权，截留了约40%的算力价值[12]。而英伟达这次通过绑定戴尔的全球企业采购渠道，直接把整柜的Token生产能力交付给企业，本质上是把价值链缩短为“英伟达-戴尔-企业”，试图从云厂商手中拿回企业端算力的定价权和分发权。

这一商业模式的成立，建立在两类企业客户的刚性需求之上：一类是对数据合规有严格要求的垂直行业客户，比如医药研发、芯片设计领域的企业，其核心研发数据不能出企业域，无法使用公有云的推理服务；另一类是年Token消耗量达到百亿级的中大型企业，这类企业如果使用公有云的中级推理服务，年成本通常在300万到600万美元之间，且无法通过规模效应持续降本[12]。

对于这类客户来说，私有部署Vera Rubin的成本优势已经显现。以年消耗100亿Token的中型医药企业为例，部署戴尔AI工厂的Vera Rubin节点后，按3年折旧加电力、运维成本计算，年成本可降至90万到150万美元，同时满足数据合规要求[12]。而对于供应链的参与方来说，这套方案的利润空间也远高于传统服务器业务：单台Vera Rubin NVL72机柜的硬件价值约为1.8亿美元，其中英伟达的芯片和软件栈占比约70%，毛利维持在70%以上；戴尔的集成和服务占比约20%，毛利约18%，远高于传统x86服务器8%到12%的毛利水平[12]。

目前市场上的替代方案尚未对Vera Rubin形成规模化替代压力。AMD在2026年GTC同期公布的MI400X集群公开测试数据显示，其在MoE模型推理负载下的每瓦吞吐量较上一代MI300X提升3倍，单Token成本较Blackwell平台低15%左右，但仍比Vera Rubin的实验室标称值高约1倍；AWS Trainium、谷歌TPU v5e等公有云厂商的自有定制芯片私有部署方案，在稠密模型推理负载下的单Token成本与Vera Rubin基本持平，但仅支持对应厂商的自研框架，生态适配范围仅为英伟达CUDA生态的20%左右，跨框架迁移成本达到硬件采购成本的20%-30%；而开源软件加消费级GPU的攒机方案，在长上下文MoE推理负载下的系统级能效仅为Vera Rubin的30%左右，原有的成本优势已被大幅收窄[4][10][12]。

但关于商业化落地的核心数字“五千家企业”，同样存在明显的口径模糊。需要明确的是，“五千家企业部署”的统计口径为2024年至2026年5月期间，在戴尔认证的基础设施上运行过至少一项英伟达AI工作负载的企业客户，覆盖从入门级GPU桌面部署、轻量模型微调服务到机架级AI集群全场景，并非仅指完成Vera Rubin NVL72生产级落地的客户[1][12]。截至2026年5月大会举办时，Vera Rubin平台尚未进入大规模量产阶段，首批样片仅交付给OpenAI、微软等不超过10家头部客户，正式大规模出货要到2026年第三季度[12]。目前公开披露的标杆客户仅有礼来、三星两家，其余四千余家企业的行业分布、部署规模、工作负载类型均未公开，其中不乏仅部署入门级GPU、运行轻量AI工作负载甚至处于免费试用阶段的客户，与市场认知中“机架级AI工厂落地”的定义存在明显差距。

将算力的核心衡量指标从FLOPS转向每瓦特Token产出，本质上也适配了当前半导体制程进步的边际放缓趋势：3nm制程下GPU的FP8浮点运算性能代际提升仅为3.5倍，远低于前几代的增速，而通过异构协同、架构优化的方式，能够在单芯片算力增长有限的情况下，放大实际工作负载的性能提升幅度，从而支撑黄仁勋提出的“2025到2027年全球Blackwell和Rubin系统支出达到1万亿美元”的市场预期[6][8][12]。这一预期较2025年10月的预测直接翻倍，其中60%的业务将来自超大规模云计算厂商，剩余40%则主要来自医药、制造、汽车等垂直行业的私有算力部署需求，黄仁勋同时指出，这一支出增长将主要由智能体AI、工业机器人、L4自动驾驶三类新场景驱动，而非传统的大模型预训练负载[6][7][12]。

落地障碍：架构绑定、配套缺口与回报周期

无论是技术层面的能效提升，还是产业层面的商业模式重构，Vera Rubin的大规模落地都面临着三重不可忽视的现实障碍。

第一重障碍是严格的架构绑定带来的高部署门槛。NVL72采用整柜交付模式，所有CPU、GPU、交换机通过NVLink深度耦合，无法单独拆分采购或升级，客户原有的基于Blackwell的集群无法直接平滑迁移至新架构，需要完全替换硬件。同时整柜要求100%液冷，对于当前仍以空气冷却为主的数据中心来说，单柜的液冷改造费用超过硬件采购成本的15%，整套方案的资本支出门槛较Blackwell NVL72提升约40%[12]。此外，解耦推理模式要求企业对现有推理代码做深度适配，拆分预填充和解码链路，目前仅英伟达NemoClaw软件栈原生支持该模式，PyTorch、TensorFlow等通用深度学习框架的原生适配尚未落地，企业的迁移成本约为普通推理架构的2到3倍。

第二重障碍是基础设施的配套缺口。当前全球数据中心的液冷渗透率仅为15%左右，部署Vera Rubin需要对现有数据中心的制冷、供电系统做全面改造，单数据中心的液冷改造费用约为原有建设成本的20%到30%，对于中小规模企业来说，改造成本可能完全抵消推理成本的下降[4]。尽管液冷厂商已经开始配套英伟达的生态，但液冷基础设施的建设周期通常在12到18个月，很难跟上Vera Rubin的量产节奏。

第三重障碍是投资回报周期的不确定性。当前Vera Rubin NVL72单柜的硬件采购成本约为1.8亿美元，即使按照理想工况下的10倍成本下降测算，以当前行业平均每百万Token 3美元的定价计算，单柜满负载年营收约为1200万美元，静态投资回报周期长达15年，远高于传统数据中心5到7年的回报周期[7]。官方宣称的“较Blackwell平台再带来5倍营收提升”，建立在硬件利用率100%、Token价格维持当前高位的理想假设之上，并未考虑未来推理服务价格战、大模型架构迭代带来的硬件贬值风险。2026年第一季度，AWS、Azure等公有云厂商已经将推理服务价格下调了30%，部分抵消了私有部署Vera Rubin的成本优势[12]。

需要说明的是，目前公开的性能与落地相关信息大多来自英伟达官方发布，独立第三方的验证数据仍较为有限，相关结论的真实性仍需后续量产交付后的实际运营数据支撑。

验证标尺：决定叙事真实性的五个指标

Vera Rubin的解耦推理架构确实切中了当前智能体AI发展的核心痛点，将Token标准化为大宗商品的尝试也确实有可能重构整个算力产业的价值链，但就目前而言，所有的判断都还停留在厂商叙事阶段，接下来6到12个月的五个关键指标，将直接验证这套叙事能否转化为真实的产业变化。

第一个指标是第三方基准测试的结果。MLPerf Inference v6基准测试是否出现Vera Rubin的公开提交数据，且测试负载覆盖稠密模型、MoE模型、长上下文推理等常见生产场景，而非仅针对最优工况优化，这将是验证其性能真实性的核心依据。如果第三方测试的全栈能效达到官方宣称的70%以上，那么其技术优势的真实性将得到确认。

第二个指标是量产后的客户真实成本数据。2026年第三季度大规模量产后，首批交付的头部客户是否公开生产环境下的全栈单Token成本数据，且实际成本达到实验室标称值的70%以上，这将决定其商业价值的真实性。如果全生命周期的单Token成本确实能较Blackwell下降50%以上，那么企业端的需求将会被真正激活。

第三个指标是客户的付费扩容比例。五千家已部署企业中，6个月内的付费扩容比例是否超过30%，戴尔AI工厂业务的毛利是否稳定超过15%，这将验证这套商业模式的可持续性。如果大量企业仅停留在试用阶段，没有持续的付费和扩容，那么所谓的五千家落地就只是客户运营的营销手段，而非真实的商业化成果。

第四个指标是液冷数据中心的渗透率。全球数据中心的液冷渗透率是否从当前的15%提升至2026年底的30%，这是Vera Rubin大规模落地的核心基础设施前提。如果液冷配套的进度不及预期，那么即使产品本身具备竞争力，也无法实现规模化的普及。

第五个指标是企业私有AI算力的采购占比。企业私有AI算力的采购占比是否从2025年的12%提升至2026年的20%以上，这将直接决定英伟达绕开公有云厂商、直接触达企业客户的商业模式是否成立。如果企业仍然更倾向于采购公有云的推理服务，那么整个价值链重构的叙事就无法成立。

从技术演进的角度来看，Vera Rubin代表了AI算力从单芯片迭代向系统级协同的明确方向，解耦推理的架构设计也确实解决了当前大模型推理中高算力与低延迟难以兼得的核心矛盾。而将Token定义为标准化商品、通过戴尔渠道直接切入企业私有算力市场的尝试，也确实有可能打破已经延续了十年的算力分发格局。

但就目前而言，所有关于性能突破和商业化落地的叙事，仍然建立在厂商自测数据和宽口径统计的基础之上，存在明显的放大成分。它不是已经完成的产业变革，也不是毫无价值的营销噱头，而是一场正在进行的、需要被持续校准的产业试验——接下来的每一组公开测试数据、每一个客户的真实付费订单、每一座液冷数据中心的落地，都会不断修正我们对这场试验的判断。对于整个产业来说，真正值得关注的从来不是10倍还是5倍的性能数字，而是Token有没有真的变成像电力一样，稳定、便宜、可随时获取的基础商品。

References

参考资料

Editorial Room

这篇文章怎么过稿

5 位编辑过稿

总编辑主笔

编写方式

总编辑主笔

校稿清单

9/9

资料引用

12 条

编辑席

技术编辑

先把“单token成本降至传统方案十分之一”的宣传拆成两个可验证的技术问题：一是这个提升来自单一芯片还是系统级架构重构，二是性能口径是否匹配企业真实生产负载。现有公开参数显示，Vera Rubin NVL72的能效提升并非来自Rubin GPU单独的算力堆料，而是整套异构协同架构的针对性优化结果：Vera CPU卸载推理链路中60%的非张量计算任务，Rubin GPU搭载的288GB HBM4将长上下文KV缓存的显存成本压缩至Blackwell的1/3以下，配合Dynamo软件栈的解耦推理模式，将高算力需求的Prefill阶段调度至GPU、延迟敏感的Decode阶段卸载至Groq 3 LPU，再加上NVLink6的整柜互联降低跨芯片通信开销，最终才达成官方宣称的能效指标。当前可验证的一手证据仅来自英伟达官网公开的DGX硬件参数和官方博客的性能声明，无第三方基准测试机构（如MLPerf）的公开验证数据，也没有已交付客户的真实负载性能披露。其中被广泛传播的“每兆瓦吞吐量提升35倍”的指标，是叠加独立Groq LPX机架后的系统级性能，并非NVL72单柜的原生能力，多数传播内容刻意混淆了两者的边界。而“五千家企业落地”的表述，实际指代的是在戴尔AI工厂部署英伟达全系列AI工作负载（含Hopper、Blackwell等已量产平台），并非部署Vera Rubin，当前该平台仅向OpenAI、微软等不超过10家头部客户交付样片，大规模量产时间为2026年Q3，尚无公开的中小企业落地案例。指标看起来漂亮，但生产环境会先追问成本和稳定性。这一能效提升的代价是严格的架构绑定和极高的部署门槛。NVL72采用整柜交付模式，72块Rubin GPU、36块Vera CPU与NVLink6交换机深度耦合，无法单独拆分采购或升级，客户原有基于Blackwell的集群无法无缝迁移至新架构，需要完全替换硬件。同时整柜强制液冷要求，对现有空气冷却的数据中心来说，单柜改造费用超过硬件采购成本的15%，产业链传言单柜采购价约1.8亿美元，CAPEX门槛较Blackwell NVL72提升约40%。此外，解耦推理模式要求企业对现有推理代码做深度适配，拆分Prefill和Decode链路，当前仅英伟达NemoClaw软件栈原生支持该模式，PyTorch、TensorFlow等通用框架的原生适配尚未落地，迁移成本约为普通推理架构的2-3倍。更关键的是，官方的单token成本计算口径仅包含电力消耗，未计入硬件采购摊销、液冷运维、软件适配等全生命周期成本，若按5年折旧周期计算，真实单token成本降幅约为官方宣称的40%-60%，而非十分之一。同时该架构的能效提升仅针对长上下文MoE模型、多步Agent推理等特定负载，普通稠密大模型的单轮对话推理能效提升仅为Blackwell的2-3倍，远低于官方宣称的10倍。此外，自研NVFP4精度的兼容性尚未经过大规模验证，虽然官方宣称与Blackwell的Transformer引擎兼容，但尚无第三方模型迁移的公开测试结果。这一异构解耦的架构思路确实切中了当前Agent推理中Prefill与Decode负载冲突的核心痛点，长期来看有技术合理性，但短期的性能宣称和落地规模存在明显的宣传放大。当前对该平台在优化负载下达成10倍能效提升的声称置信度为0.6，仅在厂商指定的测试条件下成立，通用场景下的真实表现待验证；对其大规模商业化落地的声称置信度为0.2，2026年Q3前仅能覆盖超大规模云厂商和头部AI实验室，中小企业接入需依赖云服务，无法直接部署物理集群。后续可通过三个维度验证其真实价值：一是MLPerf Inference v6基准测试中是否出现Vera Rubin的公开提交数据，且测试负载覆盖稠密、MoE、长上下文等常见生产场景；二是第一批大规模交付客户是否公开真实生产环境下的单token全成本数据；三是通用深度学习框架对解耦推理模式的适配进度，以及中小客户通过云服务接入的实际成本是否较Blackwell下降50%以上。

过稿轨迹

挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾

校稿清单

篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄

被压下去的反对意见

差评君critical

认为文章核心观点已足够中立，仅需删除编辑痕迹即可发布，无需补充信源。

为什么没放进正文：根据审校规则，一手/二手信源占比需≥40%，当前有效占比仅38%，且存在大量同源三手信源，证据基础薄弱，必须补充信源后才能发布。

Reader Signal

这篇文章对你有帮助吗？

只收集预设选项，不开放评论，不公开展示个人反馈。

选择一个判断，也可以附加一个预设标签。

发布于 2026-05-19 10:23:57。本文为原创深度报告，未经授权不得转载。观点仅代表编辑部独立判断，不构成投资建议。

技术深度

阿里云真武M890发布：面向Agent的算力战争，才刚刚开始

2026-05-20

技术深度

ECC十八万星标热度背后：AI编程开源生态的痛点、叙事与边界

2026-05-20

技术深度

Vera CPU的真实命题：从单芯片竞赛到全栈算力的闭环试验

2026-05-19

技术深度

v22.22.3传播误读背后：Node.js的生态守成与竞争边界

2026-05-18

系统级重构：能效提升的真相与边界

价值链重塑：绕开云厂商的商业尝试

落地障碍：架构绑定、配套缺口与回报周期

验证标尺：决定叙事真实性的五个指标

参考资料

这篇文章对你有帮助吗？

相关阅读

阿里云真武M890发布：面向Agent的算力战争，才刚刚开始

ECC十八万星标热度背后：AI编程开源生态的痛点、叙事与边界

Vera CPU的真实命题：从单芯片竞赛到全栈算力的闭环试验

v22.22.3传播误读背后：Node.js的生态守成与竞争边界