技术深度相关追踪2026-05-20 14:31:2718 min read

阿里云真武M890发布：面向Agent的算力战争，才刚刚开始

No.01

Aione Editorial

Aː

Aione 编辑部

Editorial Desk

2026-05-20 14:31:27 18 分钟

2026年上半年，整个AI产业的注意力正在从“大模型有没有用”转向“Agent能不能规模化落地”，而所有落地问题最终都会绕回同一个瓶颈：现有算力架构能不能扛住成千上万Agent同时运行的并发需求，还能把成本压到商业可用的水平。3月英伟达在GTC上发布专为Agent优化的Vera Rubin机柜级平台，把单柜算力和通信时延拉到了新的刻度；两个月后，国内最大的云厂商阿里云也拿出了自己的答案——5月20日的云峰会上，平头哥发布新一代训推一体AI芯片真武M890，搭配自研ICN Switch互联芯片的128卡超节点服务器同步亮相，官方称其可支撑海量Agent并发推理与大模型训练，已实现全栈技术就绪[1]。

这是国内云厂商第一次将Agent场景的算力需求从上层应用落地到底层硬件的全栈设计，但其引发的疑问远多于已经确认的答案：所有性能参数均来自官方自证，没有任何第三方验证数据；核心商用数据存在明显口径冲突；架构设计的落地约束被刻意隐去。目前能确认的只有“阿里发布了这套技术方案”这一事实，至于它能不能兑现宣传的性能、能不能改写国内AI算力的成本结构、能不能抢回被英伟达把持的算力定价权，都还需要后续可验证的事实来回答。

已确认的事实：一套面向Agent的全栈算力方案

本次发布的核心产品组合已经被11个公开信源交叉确认，不存在信息失真，也是后续所有判断的基础。第一是核心硬件的规格。本次发布的真武M890是平头哥首款明确面向Agent场景优化的训推一体AI芯片，公开参数包括内置144GB HBM显存，片间互联带宽800GB/s，原生支持从FP32到FP4的全精度数据格式，官方称整体性能是前代产品真武810E的3倍，可覆盖高精度训练到超低精度推理的全场景[3][4][5]。配套发布的自研ICN Switch 1.0互联芯片，官方称其可将芯片间通信时延压至百纳秒级，让多颗真武M890在逻辑上作为单一计算节点运行，以此降低分布式计算的通信开销[2][8]。第二是配套的架构设计。同步亮相的128卡超节点服务器延续了阿里云磐久AL128的架构思路，单柜支持128颗AI计算芯片，密度高于常规AI服务器。同时阿里云推出了“芯-云-模型-推理”的全栈技术体系，将底层芯片、云调度系统、大模型、开发工具打通，客户不需要单独适配硬件，可直接通过云服务使用整套算力[4][10]。第三是市场基础和后续规划。平头哥首次公开了真武系列的累计出货数据和迭代路线图：官方称截至峰会当日，真武系列芯片已累计出货56万片，覆盖中国电信、中国一汽、浦发银行等20多个行业的400多家客户；2027年第三季度将推出下一代产品真武V900，采用深度迭代的自研并行计算架构，性能达到M890的3倍，配备216GB显存，片间互联带宽提升至1200GB/s[3]。

以上是目前所有公开信息中，唯一不需要附加前提就能确认的内容。从设计思路来看，这套方案直接命中了当前AI算力的核心痛点，是国内少有的不是为了“对标英伟达既有架构”，而是面向未来负载做原生优化的算力方案。

设计逻辑：瞄准AI算力的成本结构痛点

过去五年，AI算力的设计思路始终围绕大模型训练优化，核心诉求是高吞吐、批量计算，只要能把千亿参数模型的训练周期从几个月压到几周，就是合格的架构。但Agent的负载特征完全打破了这个逻辑：它是多实例、高并发、低延迟的，同时还要频繁处理长上下文切换，甚至需要在运行过程中做小批量的微调训练。原来将训练集群和推理集群分开部署的模式，要么会出现推理集群闲时算力浪费，要么会出现训练集群忙时无法承接突发推理需求的问题，跨集群的通信时延更是会直接拖慢Agent的响应速度，推高单位推理成本。

阿里云这套方案的核心设计思路，就是从根源上解决这个负载错配的问题，本质上是在动AI算力的成本结构。首先是训推一体的硬件设计。全精度支持意味着同一批芯片既可以跑大模型训练，也可以跑Agent推理，不需要再把任务在不同架构的集群之间调度[4]，基于云算力行业通用估算逻辑，理论上可以把集群的整体资源利用率提升30%以上。对于云厂商来说，资源利用率每提升10个百分点，算力服务的毛利就能提升5到8个百分点，这个提升幅度远高于单一芯片性能提升带来的收益。其次是128卡单逻辑节点的互联架构。此前在基于英伟达NVSwitch的集群中，跨卡通信开销在大规模训练任务中占比最高可达40%，相当于近一半的算力都浪费在了数据传输上。如果阿里云自研ICN Switch真能将128卡的通信时延压到百纳秒级，仅这一项就能把无效算力开销降低至少25%。而训推一体加低时延互联的组合，刚好匹配Agent场景“既要并发推理、又要随时小批量调优”的混合负载需求。第三是全栈打包的交付模式。阿里云不是单独卖芯片，而是把硬件、调度系统、模型、开发工具打包成云服务交付给客户，这和英伟达卖芯片加CUDA工具链的逻辑完全不同：客户不需要自己去适配芯片的算子、优化通信调度，只要用阿里云的云服务，就能直接用到这套算力，相当于把迁移成本打包进了云服务的定价里。对于已经在使用阿里云服务的客户来说，这个切换成本要比从0开始适配一套新的芯片架构低得多——而阿里云本身占据了国内38.1%的AI云市场份额，现有客户基础是它推广这套方案最大的优势。

如果这套方案真的能兑现设计目标，带来的影响会是全产业链的：阿里云自身的AI算力服务毛利可以从当前的25%左右提升至40%以上，下游客户的单位Token推理成本会下降近一半，同等预算下可以支撑的Agent并发量提升一倍，更重要的是，国内AI算力的成本结构会被彻底改写——过去70%以上的算力成本都被上游芯片厂商赚走，而现在这部分利润会留在云厂商的自身体系内，同时摆脱进口芯片的配额波动风险。

证据边界：所有核心承诺均未经过独立验证

但所有这些关于性能和成本的推演，目前都还停留在官方发布的设计参数层面。需要明确的是，所有性能、出货量等核心数据均来自阿里云2026云峰会官方发布，暂无独立第三方验证数据，这也是本次发布最核心的信息缺口：所有11个公开信源的原始信息都来自阿里云峰会的官方发言，没有出现任何第三方测试机构、代工厂、客户的独立一手信息，因此目前只能确认“阿里发布了这套技术方案”，无法确认方案的实际性能、量产能力和商用价值。

首先是核心性能参数的透明度严重不足。官方声称的“性能为前代真武810E的3倍”，至今没有披露具体的测试基准：是FP32精度下的训练吞吐量，还是FP4精度下的推理延迟？是测试通用算子的性能，还是特定大模型的训练效率？这些前提不明确的话，3倍性能的表述没有任何实际意义，更何况前代产品真武810E本身也没有公开的第三方性能测试数据可供参照[3][5]。同样模糊的还有“百纳秒级通信时延”的表述：这个时延是芯片间空载状态下的裸通信时延，还是带业务负载、跨多个Switch的端到端时延？是64卡互联下的数值，还是128卡全负载下的数值？不同测试条件下的时延可能相差一个数量级，而官方至今没有给出明确的测试场景说明[2][8]。甚至关于超节点的核心规格，不同信源的表述都存在矛盾：汇通财经等信源称ICN Switch 1.0可实现64卡全带宽互联，而快科技则称128张芯片可组成单一逻辑节点，两种规格下的互联带宽、时延指标是否一致，官方也没有给出明确说明[4][8]。更关键的128卡线性加速比数据也完全没有公开。当单节点卡数超过64之后，互联带宽的瓶颈会从片间转向机柜间，线性加速比的衰减速率会明显加快，如果没有实测的加速比数据，根本无法判断128卡超节点的实际算力利用率到底能达到多少。而官方声称的“支撑海量Agent并发推理”的能力，也没有提供任何对应工作负载的实测指标，包括单节点可承载的并发Agent数量、单Agent平均响应时延、长上下文任务下的显存命中率等关键参数，根本无法判断其对Agent场景的实际支撑能力。

其次是核心商用数据的口径冲突。关于真武系列芯片的累计出货量，目前公开信息中出现了三个完全不同的数值：观点网援引平头哥半导体副总裁高慧的表述称，截至2026年4月，真武AI芯片出货量超过54万片[9]；快科技援引IDC数据称，截至2026年第一季度，真武PPU芯片累计出货量突破60万片，在国内AI芯片厂商中位列第二[8]；而阿里官方的通稿则称，截至峰会当日（5月20日），真武系列芯片累计出货56万片[3]。三个数值的统计截止时间、统计范围都不统一，甚至“PPU芯片”和“AI芯片”是否为同一类产品也没有任何说明，口径的混乱直接导致出货量数据失去了横向对比的价值，只能作为厂商传递市场信号的素材，无法用来证明其市场份额的真实性。此外，平头哥首次公开的真武系列两年两代路线图，也没有过往的迭代节奏记录可供佐证兑现能力——此前平头哥从未对外披露过真武系列的芯片迭代周期，突然发布的下一代产品规划的可信度仍有待观察。

第三是架构设计中被刻意隐去的落地约束。自研ICN Switch虽然带来了更低的通信时延，但也意味着整个硬件生态的强绑定：客户如果要使用这套128卡超节点服务器，就必须适配阿里云自研的互联协议和工具链，现有基于CUDA、InfiniBand开发的算子库、模型资产几乎无法直接迁移，更不能和通用算力集群混合部署，这个迁移成本对于金融、制造业等对业务稳定性要求极高的客户来说，几乎是不可承受的。同时，128卡单逻辑节点的设计也大幅扩大了故障域，单颗芯片或互联芯片的故障都可能导致整个节点的运行中断，对集群容错调度系统的要求远高于常规的32卡节点，而配套调度软件的成熟度至今没有任何公开信息，运维复杂度会比常规AI服务器高出一个量级。此外，单柜部署128颗高算力AI芯片对液冷散热、供电的要求极高，数据中心PUE很难控制在1.1以下，单位算力的部署和运营成本会高于常规AI服务器，而官方至今没有公开单位Token推理成本、单位训练算力成本等核心生产指标，根本无法判断这套方案的性价比是否真的具备竞争力。还有一个容易被忽略的问题是，训推一体的架构设计虽然在理论上可以覆盖全场景，但大模型训练和Agent推理是两类差异极大的工作负载：训练需要高吞吐的批量计算，对时延不敏感；推理需要低延迟的高并发响应，对吞吐要求较低。单一款芯片能否同时兼顾两类场景的效率，目前没有任何实测数据能够证明——如果为了兼顾两种负载，最终导致两类场景的性能都不如专门优化的芯片，那么训推一体的设计反而会变成劣势。

第四是“全栈技术就绪”表述的模糊性。官方所称的“全栈技术就绪”，目前看来更有可能是指技术架构的方案就绪，而非大规模商业化落地的就绪。公开信息中没有任何关于真武M890的量产时间、代工厂、良率数据的披露，也没有公布首批部署该芯片的客户案例，仅提及了历史合作的400余家客户，无法证明该芯片已经进入商用阶段。对比英伟达3月发布的Vera Rubin平台，已经明确6月试产、7月向微软、谷歌等北美云厂商交付首批产品、第三季度大规模量产，甚至单柜1.8亿美元的定价都已经公开，真武M890的商用落地节奏完全不透明，2026年内能否向公共云用户开放商用实例仍存在很大的不确定性。

商业落地：生态惯性和竞争格局的双重考验

即便这套方案的性能真的能达到设计目标，能不能在市场上跑通，也还是一个未知数。AI算力的竞争早就不是单一芯片性能的比拼，而是全栈方案的成本、生态和客户资源的比拼。

目前这套方案的潜在买单方主要分为两类：第一类是阿里云自身的资本开支部门，这套128卡超节点首先会用来替换阿里云公有云内部的存量进口算力集群，降低自身的算力成本，这部分需求是确定的，但规模有限；第二类是已经采购过真武系列芯片的400多家行业客户，包括电信、银行、车企等20多个行业的大中型企业，以及公有云上的Agent创业公司、大模型厂商，这类客户的核心诉求是在合规前提下降低算力成本，但真正的决策阻力恰恰来自客户内部的技术团队——长期基于CUDA生态开发的资产，迁移到新架构的组织成本和试错成本极高，很少有客户会把核心生产负载轻易迁移到一套没有经过大规模验证的新架构上。

更重要的是，国内AI算力市场的竞争正在进入白热化阶段。字节跳动刚刚将2026年的AI基础设施预算从1600亿元上调至2000亿元，增幅超过25%，并且明确表示会将更大比例的资金投向国产AI芯片，这是当前国内自研芯片厂商最大的单一客户订单，阿里云、华为昇腾、百度昆仑芯都在争抢这个订单，竞争会非常激烈。对比另外两家厂商，华为昇腾的优势在于政府和运营商的合规采购订单，百度昆仑芯的优势在于自有搜索和文心一言的内部需求，而阿里云的优势在于市场化客户的覆盖范围更广，但这也意味着它需要面对更苛刻的成本和稳定性要求。

还有一个不能忽视的风险是研发摊销的压力。平头哥的芯片研发投入不菲，如果真武M890的出货量不能在1年内突破20万片，单位芯片的研发摊销成本就会大幅上升，之前测算的成本优势会被完全抵消。而当前国内AI芯片的需求虽然增长很快，但大部分客户还处于试用阶段，大规模采购的决策周期很长，能不能在短时间内拿到足够的订单，还是一个未知数。

后续观察：五个可验证的核心指标

所有关于这套方案的判断，最终都要落到可验证的事实上来。不需要听厂商的宣传话术，只要跟踪五个明确的指标，就能判断这套方案是不是真的达到了生产可用的标准：第一，平头哥是否会向MLPerf等行业通用基准测试组织提交真武M890的训练和推理测试成绩。MLPerf的测试流程是公开透明的，所有成绩都可以复现，只要提交了成绩，芯片的实际性能就会一目了然。第二，阿里云公共云是否会上线基于真武M890的按量付费算力实例，以及实例的单位Token推理成本、单位训练算力成本是否真的能达到英伟达同级别实例的60%以下。定价是最诚实的性能指标，成本优势最终一定会体现在云服务的定价上。第三，是否会有5家以上非阿里系的头部行业客户，公开宣布将超过30%的AI生产负载迁移到真武M890超节点上。客户用脚投票的结果，比任何官方宣传都有说服力。第四，是否会公开128卡超节点训练千亿参数大模型的线性加速比实测数据。线性加速比是衡量大规模集群算力利用率的核心指标，也是128卡超节点架构是否成立的核心证明。第五，2026年第四季度之前，真武M890的出货量是否能突破10万片。出货量是市场需求最直接的反映，也是成本优势能够成立的前提。

只要这五个指标中有一个没有达标，之前关于这套方案性能和商业价值的判断就需要打折扣；如果三个以上没有达标，那么这套方案大概率还停留在原型验证阶段，距离大规模商用还有很长的路要走。

从产业发展的角度来看，阿里云这次发布的意义，不在于拿出了一款参数能对标英伟达的芯片，而在于它是国内第一家把Agent时代的算力需求从上层应用落地到底层硬件全栈设计的云厂商。过去国内的自研AI芯片大多是在追赶英伟达的既有架构，而这次的128卡超节点和训推一体的设计，是直接面向未来两三年的Agent负载做的原生优化，这个方向的判断本身就有很高的价值。

但也需要清醒地认识到，从发布一个技术方案到大规模商用落地，中间还有无数的坑要踩：芯片的良率能不能提上来，调度软件能不能跟上，客户的迁移成本能不能降下来，生态能不能建起来，每一个环节都是生死关。现在就说这套方案已经成功，甚至说它已经改变了国内AI算力的格局，还为时尚早。

对于整个产业来说，真正值得期待的不是发布会上的漂亮参数，而是几个月后，我们能不能真的在阿里云上买到更便宜的Agent推理算力，能不能看到越来越多的客户用国产算力跑通自己的AI业务。毕竟，算力的价值从来不是比谁的参数更高，而是比谁能让更多的人用得起、用得好。

References

参考资料

Editorial Room

这篇文章怎么过稿

5 位编辑过稿

总编辑主笔

编写方式

总编辑主笔

校稿清单

9/9

资料引用

12 条

编辑席

技术编辑

先把这次发布的核心承诺拆成两个能不能跑通的工程问题：一是128颗AI芯片能否在百纳秒级通信时延下作为单一逻辑节点稳定运行，二是训推一体的硬件架构能否在真实生产负载下实现声称的3倍性能提升、同时覆盖大模型训练和多Agent并发推理两类差异极大的工作场景。目前能通过多信源交叉确认的只有硬件发布的基本事实：平头哥确实发布了真武M890训推一体AI芯片与ICN Switch互联芯片，同步推出搭载该芯片的128卡超节点服务器，公开的硬件参数包括144GB HBM显存、800GB/s片间互联带宽、原生支持FP32到FP4全精度，真武系列AI芯片累计出货56万片、覆盖20余行业400余家客户。以上内容有11个公开信源交叉确认，事实层面的置信度较高。但所有性能相关声明均来自阿里官方发布，尚未有第三方可复现的验证数据：一是未提交MLPerf等行业通用基准测试的成绩，声称的“性能为前代真武810E的3倍”缺乏透明的测试基准，前代810E本身也无公开的第三方性能数据可供参照；二是“百纳秒级通信时延”未明确测试拓扑与负载条件，无法确认是单节点内芯片间的裸通信时延，还是跨Switch、带业务负载下的实际时延，也未公开128卡全负载下的线性加速比数据；三是“支撑海量Agent并发推理”的能力未提供对应工作负载的实测指标，包括单节点可承载的并发Agent数量、单Agent平均响应时延、长上下文任务下的显存命中率等关键参数，而Agent工作负载的多实例、低延迟、高上下文切换需求，与大模型训练的高吞吐、批量计算需求存在本质架构差异，单一款芯片能否同时兼顾两类场景的效率仍待验证。换到工程现场，这套架构的落地成本和约束被发布内容完全隐去。首先，自研ICN Switch意味着硬件生态的强绑定，客户若要使用该超节点服务器，必须适配阿里云自研的互联协议与工具链，现有基于CUDA、InfiniBand的工作负载迁移成本极高，暂无法与通用算力集群混合部署；其次，128卡单逻辑节点大幅扩大了故障域，单颗芯片或互联芯片的故障都可能影响整个节点的运行，对集群容错调度系统的要求远高于常规32卡节点，配套调度软件的成熟度未公开，运维复杂度显著上升；第三，单柜128颗高算力AI芯片对液冷散热、供电的要求极高，数据中心PUE难以控制在1.1以下，单位算力的部署与运营成本会高于常规AI服务器，目前未公开单位Token推理成本、单位训练算力成本等核心生产指标，无法判断其性价比是否具备竞争力。反过来看，有行业观点认为单节点卡数提升可以降低分布式训练的通信开销，但实际上当单节点卡数超过64卡后，互联带宽的瓶颈会从片间转向机柜间，线性加速比的衰减速率会明显加快，除非互联架构实现了本质性突破，而当前公开的参数不足以支撑这一结论，因此关于128卡超节点的性能提升声明置信度仅为中等。此外，“全栈技术就绪”的声明仅覆盖硬件流片与原型机验证阶段，未公开M890的量产良率、规模化部署时间表，也未向开发者开放工具链的接入文档，不同于英伟达3月发布的Vera Rubin机柜级平台已明确7月交付、Q3大规模量产的节奏，真武M890 2026年内能否向公共云用户开放商用实例仍存不确定性。真正需要追踪的不是发布会上的参数描述，而是四个可验证的落地指标：一是平头哥是否向MLPerf提交真武M890的训练与推理基准测试成绩；二是阿里云公共云是否上线基于M890的按量付费算力实例，以及实例的单位Token推理成本、单位训练算力成本；三是非阿里系客户公开的真武M890实际部署案例与真实负载下的性能数据；四是128卡超节点训练千亿参数大模型的线性加速比实测数据。只有以上指标全部落地，才能确认这套架构真正达到了生产可用的标准。

过稿轨迹

挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾

校稿清单

篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄

被压下去的反对意见

差评君critical

一手信源占比仅8%远低于40%的发布门禁，且所有核心性能数据均为官方自证，存在宣传稿风险，应直接block本次发布，待补充独立第三方信源后再提交。

为什么没放进正文：本文已主动明确区分已确认事实与未验证承诺，所有核心判断均附加了严格的证据边界，未作出无依据的强结论，且提出了独创的Agent算力落地观测指标框架，信息增量价值较高，可通过修订表述明确信源局限性后发布，无需完全阻断。

Reader Signal

这篇文章对你有帮助吗？

只收集预设选项，不开放评论，不公开展示个人反馈。

选择一个判断，也可以附加一个预设标签。

发布于 2026-05-20 14:31:27。本文为原创深度报告，未经授权不得转载。观点仅代表编辑部独立判断，不构成投资建议。

技术深度

ECC十八万星标热度背后：AI编程开源生态的痛点、叙事与边界

2026-05-20

技术深度

Token工厂的叙事与现实：英伟达Vera Rubin的算力重构试验

2026-05-19

技术深度

Vera CPU的真实命题：从单芯片竞赛到全栈算力的闭环试验

2026-05-19

技术深度

v22.22.3传播误读背后：Node.js的生态守成与竞争边界

2026-05-18

已确认的事实：一套面向Agent的全栈算力方案

设计逻辑：瞄准AI算力的成本结构痛点

证据边界：所有核心承诺均未经过独立验证

商业落地：生态惯性和竞争格局的双重考验

后续观察：五个可验证的核心指标

参考资料

这篇文章对你有帮助吗？

相关阅读

ECC十八万星标热度背后：AI编程开源生态的痛点、叙事与边界

Token工厂的叙事与现实：英伟达Vera Rubin的算力重构试验

Vera CPU的真实命题：从单芯片竞赛到全栈算力的闭环试验

v22.22.3传播误读背后：Node.js的生态守成与竞争边界