技术深度相关追踪2026-05-27 10:12:0418 min read

英伟达Vera CPU：全栈闭环的一步，还是叙事先行的产物？

No.68

Aione Editorial

Aː

Aione 编辑部

Editorial Desk

2026-05-27 10:12:04 18 分钟

2026年5月中旬，英伟达超大规模与高性能计算副总裁Ian Buck先后将首批Vera CPU系统交付至Anthropic、OpenAI、SpaceXAI三家AI实验室，随后送抵甲骨文云基础设施客户卓越中心[1][6]。这不是一次普通的产品送样：作为英伟达首款完全自主设计的高端数据中心CPU，Vera被官方定位为“专为智能体AI打造的下一代基础设施核心”，是其全栈AI工厂方案的核心组件，首批第三方测试公布后，更有声音将其解读为冲击x86服务器芯片格局的标志性产品[1]。

但如果把所有公开信息拆解到可验证的事实层面，会发现这颗芯片的真实定位，远没有传播中的叙事那么清晰。它既不是一款要和Intel、AMD正面争夺通用CPU市场的产品，也不是一个已经被验证的“智能体AI必需品”。它更像是英伟达用十年时间搭建的AI生态壁垒，向服务器核心部件延伸的一次关键尝试——只是这次尝试的实证支撑，目前还远远跟不上叙事的速度。

被严格限定的性能证据

要判断Vera的真实性能，首先要厘清所有公开数据的边界。目前关于Vera性能的核心信息来自两个渠道：一是英伟达官方发布的产品参数，二是科技媒体Phoronix在英伟达总部完成的首批第三方基准测试。两者都存在明确的约束条件。

从硬件参数来看，Vera采用88颗英伟达自研的Olympus Arm架构核心，每个核心配备2MB L2缓存，全芯片统一L3缓存达164MB，支持PCIe Gen 6和CXL 3.0高速互联[7]。公开资料中，这颗芯片的核心性能指标存在两处明确的口径差异：其一，内存带宽同时出现1.2TB/s和2TB/s两个版本，其中1.2TB/s为多家行业媒体报道的单芯片原生带宽[9][11]，2TB/s则为英伟达官方公布的双路配置下的聚合带宽[1][6]，两者对应不同的硬件部署场景；其二，“单核性能提升50%”的表述中，英伟达官方口径为对比前代Grace CPU的同功耗测试结果[1][6]，而部分第三方报道将其引申为对比“传统x86 CPU”，未明确对比的具体型号、运行频率规则，口径存在模糊性[4][11]。

Phoronix的第三方测试是目前唯一的独立性能数据，但这组测试的约束条件比参数口径更值得关注。根据测试报告，本次测试在英伟达圣克拉拉总部的预生产开放平台上完成，测试人员仅在现场停留一天，测试范围被限定为英伟达“认为最符合现代数据中心客户需求的特定用例”，且因“电源管理优化仍在进行中”，英伟达明确要求第一轮测试不得启用CPU功耗监控，无法获取任何能耗相关数据[7]。

测试的对照组配置也存在明显的不对称性：参与对比的x86产品仅包含Intel Xeon 6980P和AMD EPYC 9005系列，其中Intel仅有一颗Granite Rapids样品可供测试，Ampere的Arm服务器芯片则因厂商收回未能参与对比；AMD EPYC配置的是64GB DDR5-6400内存，而Vera搭配的是8条96GB LPDDR5-9600内存，两者的内存容量和规格均不相同[7]。最终测试结果显示，在指定的通用计算场景中，Vera的整体性能超过了参与测试的x86旗舰产品；其中在关闭超线程的LLVM代码编译场景下，Vera的单线程编译速度比AMD EPYC 9005快42%，比Intel Xeon 6980P快37%，该分项测试采用了相同版本的编译器和代码库[7]。但这一结论的适用范围被严格限定在本次测试的特殊条件下。

也就是说，目前所有关于“Vera性能领先x86旗舰”的判断，都只能适用于“英伟达指定场景、预生产平台、关闭功耗监控、内存配置不对称”的受控环境，无法直接推广到通用数据中心的全负载场景，更不能等同于生产环境中的实际表现。

AI工厂的CPU缺口

如果抛开性能叙事的包装，Vera的出现其实对应着一个真实存在的产业痛点：智能体AI正在改变数据中心的算力分配逻辑，CPU第一次从GPU的“辅助角色”变成了制约AI性能的瓶颈。

在传统的生成式AI负载中，CPU的工作主要是调度任务、搬运数据，绝大多数计算都由GPU完成。但智能体AI的工作逻辑完全不同：当模型不再只是生成文本回答，而是需要自主规划步骤、调用外部工具、生成并执行代码、处理数百万token的长上下文时，大量计算会回落到CPU层面[6][8]。英伟达在官方博客中举了一个具体的例子：当一个数学推理模型需要生成Python代码来验证答案时，代码的编译、执行和结果校验都在CPU上完成，此时GPU会处于闲置状态，直到CPU返回结果[6]。对于拥有上万张GPU的大型AI工厂来说，哪怕只有10%的GPU闲置时间，对应的成本损失都会达到数千万美元。

这正是Vera的设计目标：不是追求通用CPU的核心数量或者整数性能，而是通过高内存带宽、大缓存和优化的核心调度，减少GPU的等待时间，提升整个AI集群的整体效率。官方声称，Vera能够以传统基础设施两倍的能效，完成向GPU馈送数据所需的调度、控制与数据搬移工作[10]。这种设计逻辑和传统CPU完全不同：Intel和AMD的服务器CPU优先考虑虚拟化、数据库、Web服务等通用负载的兼容性和性价比，而Vera从一开始就是为AI场景下的“GPU陪跑”角色设计的。

这种定位也解释了为什么Vera的首批交付对象不是传统企业IT部门，而是Anthropic、OpenAI、SpaceXAI和甲骨文云这四家深度运行智能体负载的机构。Anthropic计算负责人James Bradbury在接收现场公开表示，该公司正在测试Vera在Claude 3系列模型长上下文处理、多工具调用链场景下的调度效率，首批内部测试显示，相同GPU集群配置下，端到端智能体任务延迟最高降低了22%[5][12]。马斯克则在交付现场亲自询问了Vera的核心数、内存配置和散热设计，SpaceXAI正在评估将其用于强化学习和代理式仿真流程[12]。

如果仅从工程逻辑来看，Vera的设计完全自洽：它瞄准的是一个过去被忽略的AI基础设施痛点，并且针对性地调整了CPU的架构优先级。但问题在于，工程逻辑的自洽，不等于商业价值的成立，更不等于“智能体非它不可”的技术必然性。

未被填补的证据鸿沟

从“Vera设计目标明确”到“Vera是智能体AI的最佳选择”之间，存在三个尚未被填补的证据断点，这些断点也是当前所有过热判断的核心风险所在。

第一个断点，是“智能体专用”的定位缺乏对应的负载验证。目前所有公开的基准测试，包括Phoronix发布的测试，均覆盖的是Geekbench、SPEC CPU、代码编译等通用计算场景，没有任何一组测试是基于真实的智能体工作负载——比如多步工具调用链的延迟、长上下文检索的吞吐量、多智能体调度的稳定性等——来完成的[7]。也就是说，当前公开的基准测试数据仅能证明Vera是一颗性能表现突出的Arm服务器CPU，目前无公开测试验证其架构优化对智能体任务的专属增益。

第二个断点，是功耗和总拥有成本（TCO）数据的完全缺失。数据中心采购CPU时，峰值性能从来不是第一优先级，每瓦性能、单位任务成本、长期运维成本才是核心决策指标。本次测试中Vera的峰值TDP达到450W，远高于绝大多数常规数据中心CPU的200-350W区间，而功耗监控又被明确要求关闭，导致所有关于“能效是传统方案两倍”的官方声称，都没有任何可验证的实测数据支撑[7]。如果这颗CPU的实际能耗远高于x86产品，那么它带来的GPU闲置时间节省，很可能会被更高的电费、散热成本和机柜密度要求抵消，甚至出现整体TCO上升的情况。此外，Vera搭配的高规格LPDDR5内存成本也远高于x86平台常用的DDR5内存，这部分成本差异目前也未被纳入任何公开对比。

第三个断点，是现有验证样本的非中立性。目前Vera的所有交付对象都是英伟达AI生态的深度绑定合作伙伴：Anthropic、OpenAI、SpaceXAI的算力集群几乎100%采用英伟达GPU，甲骨文云则是英伟达在公有云领域最重要的战略合作伙伴之一，双方在AI基础设施上有多年的深度合作[5][6][8]。这些客户的测试反馈本质上是生态内部的验证，无法代表中立客户的真实需求。唯一公开的规模化部署承诺来自甲骨文云，其产品管理负责人Karan Batta表示计划自2026年起部署数十万颗Vera CPU，但这只是一个意向性表述，既没有披露确认的采购合同，也没有明确的交付时间节点和采购成本，更不能代表整个云厂商市场的选择[10][12]。

还有一个容易被忽略的架构细节是：Vera作为Vera Rubin NVL72机柜的主处理器，可通过第二代NVLink-C2C总线与同代Rubin GPU实现直连，双向互联带宽达1.6TB/s，能够实现CPU与GPU内存的统一寻址，无需经过PCIe总线中转，这种紧耦合带来的系统级性能增益，远超过CPU本身的单项性能提升[6][9]。但如果脱离英伟达的机柜和GPU生态，把Vera作为独立的通用CPU使用，它能保留多少性能优势，目前没有任何公开数据。也就是说，Vera的竞争力本质上是英伟达生态竞争力的延伸，而非CPU产品本身的绝对优势。

生态闭环的真正意图

理解了Vera的生态绑定属性，就能看懂英伟达推出这款CPU的真正目的：它不是要和Intel、AMD争夺每年数百亿美元的通用服务器CPU市场，而是要把自己在AI领域的生态壁垒，延伸到服务器的每一个核心部件，进一步提高客户的迁移成本，扩大利润空间。

过去十年，英伟达的核心业务是卖GPU，客户采购GPU之后，搭配的CPU、内存、网卡、服务器机箱都可以从其他厂商购买，英伟达的利润只来自GPU这一个部件。但随着AI算力集群的规模越来越大，英伟达发现，GPU之间的互联、CPU和GPU之间的数据搬运、网络的调度，这些非GPU部件正在成为限制GPU性能发挥的瓶颈，同时也是利润的空白地带。

于是从2020年开始，英伟达陆续推出了BlueField DPU、Spectrum-X以太网交换机、MGX机架系统，直到现在的Vera CPU，加上已经占据绝对统治地位的GPU，英伟达已经拥有了AI数据中心里所有核心部件的自研能力[1][8][9]。客户现在可以采购一套完全由英伟达生产的AI机柜，从CPU、GPU、DPU到网卡、交换机、机架，所有部件都来自同一家厂商，并且经过了统一的架构优化。

这种全栈闭环的优势非常明显：所有部件之间的互联协议都是英伟达自研的，不需要兼容通用标准，数据搬运的延迟和开销会大幅降低，整个集群的性能密度会更高。但对应的代价是客户的供应商锁定风险会急剧上升：一旦采用了英伟达的全栈方案，未来就很难再切换到AMD、Intel或者其他厂商的产品，因为所有的软件栈、调度逻辑、硬件互联都是专有的，迁移成本会高到无法承受。

对于已经投入数百亿美元采购英伟达GPU的大型AI公司和云厂商来说，这种锁定是一个可以接受的权衡：只要全栈方案能带来整体TCO的下降，哪怕丧失一部分议价权也值得。但对于中型云厂商、传统企业和政府客户来说，供应商锁定是一个无法接受的风险，这也决定了Vera的市场空间会被严格限定在英伟达生态内部，不会对通用CPU市场造成全局性的冲击。

从产业链利润分配的角度来看，Vera的出现意味着英伟达正在把AI基础设施的利润池从GPU扩展到整个服务器。过去一台AI服务器里，GPU占70%的成本，CPU占10%，这10%的利润属于Intel和AMD；现在英伟达可以把CPU的利润也赚走，同时通过全栈优化提高产品的整体溢价，相当于在不增加太多客户成本的情况下，把自己的利润率又提高了一截。这才是黄仁勋把Vera称为“下一个数十亿美元级业务”的真正原因，而不是因为它能卖出多少颗独立的CPU[10]。

需要等待的验证节点

当前关于Vera的所有判断，都还处于“工程验证完成，商业验证尚未启动”的阶段。要确认这款产品的真实价值，至少需要等到五个可验证的节点出现明确的结果：

第一，2026年下半年甲骨文云的实际部署数据。如果到2026年底，甲骨文云真的完成了数十万颗Vera CPU的生产环境部署，并且公开了对应智能体负载的TCO对比数据，证明Vera确实能降低整体算力成本，那么它的商业价值就得到了初步验证。如果部署规模远低于承诺，或者没有公开对应的成本数据，那么这个意向性承诺的参考价值就非常有限。

第二，中立第三方的完整基准测试。未来是否有第三方机构能够发布不受英伟达限制的测试结果，包括开启功耗监控、覆盖智能体真实负载、对比相同功耗和内存配置下的x86产品性能，这将是判断Vera真实性能的核心依据。如果长期没有第三方发布完整测试，那么当前的性能结论就只能停留在受控环境的范围内。

第三，非战略合作伙伴的采购情况。如果除了甲骨文、OpenAI这些深度绑定的客户之外，AWS、Azure、谷歌云或者其他传统企业客户也公开宣布采购Vera CPU，那么就证明这款产品的价值已经超越了生态捆绑的范围。如果长期只有英伟达的战略合作伙伴在使用，那么它就只是一个生态内部的定制部件，而非通用的基础设施产品。

第四，Vera独立运行的性能数据。如果有厂商推出搭载Vera CPU但不搭配英伟达GPU的通用服务器，并且公布对应的性能和成本数据，就能验证Vera作为独立CPU的竞争力。如果所有Vera都只能和英伟达GPU搭配销售，那么它的性能优势就本质上属于系统级的捆绑增益，而非CPU本身的优势。

第五，软件生态的适配进度。Vera采用的是完全自研的Olympus核心，而非Arm的公版核心，Linux内核调度器、KVM虚拟化、容器编排等通用服务器软件栈的适配进度，将直接决定它的通用性和运维成本。如果适配进度缓慢，出现大量兼容性问题，那么哪怕硬件性能再强，也很难大规模部署。

回到最开始的问题：Vera到底是AI基础设施的一次重要突破，还是一次成功的叙事包装？答案其实介于两者之间。

它是一次目标清晰的工程尝试，准确命中了智能体AI时代CPU成为算力瓶颈的真实痛点，并且在受控测试中展示了值得关注的性能潜力。它也是英伟达完善AI全栈布局的关键一步，标志着这家公司已经从单纯的GPU供应商，变成了能够提供整套AI基础设施的全栈厂商，这对整个算力产业链的影响，远超过一款单一产品的发布。

但它目前还远远不是一个被验证的产业拐点。所有关于“智能体专用”“重构服务器芯片格局”的判断，都缺乏足够的实证支撑，更多是英伟达基于自身生态优势的叙事引导。从工程样品到大规模量产，从生态内部测试到中立客户验证，从受控测试到真实生产负载，Vera还有很长的路要走。

接下来的12个月会是关键的验证窗口。如果到2027年上半年，我们能看到数十万颗Vera在生产环境中稳定运行，能看到中立第三方的完整测试数据，能看到非战略合作伙伴的主动采购，那么这颗CPU就真的打开了AI基础设施的新一页。如果没有，那么它就只是英伟达全栈生态里的又一个定制部件，无法对整个产业格局产生实质性的影响。现在下任何确定性的结论，都还为时尚早。

References

参考资料

Editorial Room

这篇文章怎么过稿

5 位编辑过稿

总编辑主笔

编写方式

总编辑主笔

校稿清单

9/9

资料引用

12 条

编辑席

技术编辑

把 Vera CPU 先拉回一个能不能独立跑通的工程问题。根据英伟达官方博客和首批第三方 Phoronix 基准测试，Vera 是一颗 88 核自研 Arm 架构 CPU，搭配 1.2 TB/s 内存带宽、164MB L3 缓存，单核性能较前代 Grace 提升约 50%。Phoronix 在英伟达总部用预生产开放平台跑了一组受控测试，目前只公布了他们认为“最符合现代数据中心客户需求”的部分 benchmark，功耗监控被明确要求暂时不开启。这颗芯片的工程意义很清楚：英伟达不再只做 PCIe 插槽里的加速卡，它要定义 AI 工厂的主机侧，把 CPU 与 GPU 之间的数据搬移、上下文管理、工具调用调度这些 agentic 负载直接写进微架构。但现阶段的证据更多是方向性信号，不是可复现的生产结论。问题在于两种数据口径的错位。官方的“1.2 TB/s”内存带宽和“单核性能提升 50%”是与上一代 Grace CPU 对比，而不是与当前 x86 旗舰的等功耗对比。Phoronix 测试中，Vera 的峰值 TDP 达到 450W，高于绝大多数数据中心 CPU，而对比的 AMD EPYC 9005 和 Intel Xeon 6980P 虽然性能落在下风，但测试环境并不对称——英特尔只有一颗样品、Ampere 处理器已被收回、双路 AMD 配置存在总拥有成本的不同考量。把“性能领先”放进这个场景，更准确的描述是：在一个功耗上限极高、BIOS 和平台都未锁定的预生产系统上，Vera 对当前 x86 旗舰取得了可测量的优势，但如果拉到实际云租户会关心的每瓦性能或单位任务成本，这个领先还缺乏数据。这才是真正需要追踪的指标，不是 Phoronix 榜单名次，而是云厂商部署后每单位推理任务的综合成本。目前已知的唯一规模化部署承诺来自 OCI，口径是从 2026 年起部署“数十万颗”。这个数字本身不说明成本，但它是一个可验证的节点：如果到 2026 年底 OCI 真的把数十万颗 Vera 跑在生产集群里，并且公开了对应负载的性价比，那才构成一条工程拐点。现在这个阶段，量产和开箱交付只是物理存在，软件栈、内存管理策略、多租户隔离、CXL 3.0 和 PCIe Gen 6 的全链路打通程度都还没有独立审计。 “Agentic AI 专用 CPU”这个定位也必须被拆回微架构事实。NVIDIA 的逻辑是：当模型需要生成 Python 代码、调用工具、处理长上下文时，大量工作会落在 CPU 上，Vera 的高吞吐核心、大 L3 和极高内存带宽就是为这类负载设计的。这个方向在架构上是自洽的，但从实验室到生产环境，还需要验证至少三件事：一是这类 agentic 负载是否真的能在 Vera 上被编译器有效调度到全 88 核而不出现严重的延迟抖动；二是软件生态——Linux 内核调度器、KVM、容器化支持——是否完全适配新核心；三是锁在英伟达全栈内部的协同收益是否意味着用户必须接受更深的供应商绑定。尤其是最后一点，Vera 的价值相当一部分依附在与 Rubin GPU 的 NVLink-C2C 直连上，它独立运行时能保留多少优势，是评估这项技术真实竞争力的关键。把以上几层拼在一起，当前可以做一个技术判断：Vera 是英伟达把 CPU 纳入其完整 AI 工厂架构的一次工程闭环尝试，它能够跑起来，在受控条件下展示了可测量的性能优势，但它离一个通用服务器 CPU 产品还有距离，其真实竞争力高度依赖与英伟达 GPU 和网络方案的耦合。现阶段应把英伟达的说法标记为“声称”，把 Phoronix 的数据标记为“预生产环境下的受控基准”，把 OCI 的部署承诺标记为“待验证的商业验证点”。后续必须等待打开功耗、展开更多非 AI 专属 benchmark、第三方拉通总拥有成本对比，以及至少一家云厂商公布真实负载下的单位任务成本数据，才能把 Vera 从工程测试品的判断上升为一个产业可依赖的基础设施部件。

过稿轨迹

挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾

校稿清单

篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄

被压下去的反对意见

差评君awareness

主张将英伟达对Vera的营销包装定性为「供给侧叙事操控」，要求明确指出英伟达刻意放大产品价值引导产业预期

为什么没放进正文：该判断无实锤内部信源支撑，仅为基于公开信息的主观推论，不符合证据强度要求，因此调整为中性的「实证支撑落后于叙事速度」表述

程析awareness

主张作出「Vera完全无法挑战x86通用CPU市场」的绝对判断，明确其仅为英伟达生态内定制部件

为什么没放进正文：该判断缺乏大规模商用后的市场数据支撑，仅能基于当前定位得出有限结论，因此调整为留有余地的温和表述

Reader Signal

这篇文章对你有帮助吗？

只收集预设选项，不开放评论，不公开展示个人反馈。

选择一个判断，也可以附加一个预设标签。

发布于 2026-05-27 10:12:04。本文为原创深度报告，未经授权不得转载。观点仅代表编辑部独立判断，不构成投资建议。

技术深度

联发科的AI豪赌：入场券之后，15%市占率的虚实边界

2026-06-02

技术深度

英伟达Vera CPU首测背后：AI算力栈的分化，而非x86的终结

2026-06-02

技术深度

ECC v2.0-rc1的20万星热：AI编码的效率优化还是生态补丁？

2026-06-02

技术深度

Node.js v26系列迭代：特性落地的真实门槛与JS生态的成本重构

2026-06-02

被严格限定的性能证据

AI工厂的CPU缺口

未被填补的证据鸿沟

生态闭环的真正意图

需要等待的验证节点

参考资料

这篇文章对你有帮助吗？

相关阅读

联发科的AI豪赌：入场券之后，15%市占率的虚实边界

英伟达Vera CPU首测背后：AI算力栈的分化，而非x86的终结

ECC v2.0-rc1的20万星热：AI编码的效率优化还是生态补丁？

Node.js v26系列迭代：特性落地的真实门槛与JS生态的成本重构