返回深度
技术深度相关追踪2026-05-21 07:38:437 min read

阿里平头哥发布新一代AI芯片真武M890

Aione 编辑部
Editorial Desk
2026-05-21 07:38:43 7 分钟

平头哥真武M890:全栈算力的落地与待证边界

2026年5月20日的阿里云峰会上,阿里平头哥正式发布新一代训推一体AI芯片真武M890,同步推出配套的ICN Switch 1.0互联芯片、搭载两款核心芯片的128卡磐久AL128超节点服务器,以及千问旗舰大模型Qwen3.7-Max。发布会现场,平头哥首次披露真武系列芯片“一年一代”的迭代路线:预计2027年第三季度推出深度优化并行架构、性能再提升三倍的真武V900,2028年第三季度推出真武J900,相关产品已向定向企业客户开放测试[2][9]。

这是平头哥首次完整展示其AI芯片的长期迭代规划,也是国内云厂商首次围绕Agent场景推出的全栈算力升级。不同于以往国产芯片发布常出现的性能对标海外巨头的宣传导向,本次发布的核心指向十分明确:用全栈自研的算力底座,重构阿里云MaaS业务的成本结构,抢占Agent时代国内云算力市场的主动权。

已落地的量产基础

本次发布的可信度首先建立在平头哥已验证的AI芯片量产交付能力之上。2026阿里云峰会现场披露的数据显示,截至2026年第一季度,真武系列芯片累计出货量在56万片至60万片之间,在国内AI芯片厂商中位居第二,仅次于华为昇腾,已服务国家电网、小鹏汽车、中国电信等20多个行业的400余家客户[5][6][7][11]。尽管出货量统计口径存在小幅差异,且未明确是否包含推理端PPU产品,但已足够说明平头哥已完成AI芯片从研发到量产交付的基础闭环,真武M890不属于仅停留在概念阶段的产品。

另一个可验证的落地进展是,搭载M890的128卡超节点服务器已上线阿里云百炼平台,公开支持Qwen、DeepSeek、Kimi等国内主流大模型部署[6][9]。这意味着至少在阿里自有生态内,M890已完成基础的软硬件适配,进入可实际调用的阶段,而非仅停留在实验室原型。

更关键的是,本次发布补齐了平头哥数据中心芯片的全栈布局。除真武系列AI芯片之外,平头哥已推出倚天系列Arm服务器CPU、磐脉系列智能网卡、镇岳系列存储主控芯片、ICN Switch互联芯片,覆盖算力、网络、存储三个数据中心核心环节的自研,形成了国内少数实现数据中心核心芯片全栈自主的产品矩阵之一[6][11]。配合自研的T-Head SAIL软件栈,这套全栈体系的核心目标并非单独售卖芯片,而是为阿里云的AI服务提供底层支撑。

指向Agent场景的成本重构

本次发布的所有硬件设计,均指向AI应用从纯对话交互向自主规划执行的Agent场景切换带来的算力需求变化。与传统大模型单次对话仅需一次模型推理不同,单个Agent执行一项任务通常需要连续发起数十次模型调用,同时涉及大量任务规划、状态管理、工具调用等CPU密集型操作,通信与调度开销通常是普通大模型对话的3至10倍,对算力集群的并发能力、通信时延、芯片间协同效率提出了远高于传统训推场景的要求[6][8]。

据发布会现场披露的参数,真武M890的硬件设计针对这一需求优化:内置144GB高带宽显存,片间互联带宽达800GB/s,原生支持从FP32到FP4的全精度谱系,可同时覆盖高精度训练与低精度推理需求;配套的ICN Switch 1.0互联芯片吞吐量达25.6Tbps,可实现64颗M890芯片的全带宽直连,点对点通信时延低于150纳秒,单机柜128卡的紧密耦合互联可将多芯片协同的通信开销降至最低[4][6][8]。此外,自研倚天CPU与真武AI芯片的协同优化,可进一步降低Agent任务中CPU调度环节的额外开销[6][11]。

对于阿里云而言,这套全栈自研算力底座的核心价值,在于重构MaaS(模型即服务)业务的成本结构。阿里云峰会现场披露,当前其AI模型及应用服务的年度经常性收入(ARR)已超过80亿元,预计2026年底将突破300亿元,算力成本通常占云厂商MaaS业务总成本的60%以上[12]。厂商披露的数据显示,在Agent并发场景下,M890的单位算力成本比主流GPU方案低45%,单卡Agent并发支持能力比同级别GPU最高可提升2.8倍[8]。若该数据在大规模部署中得到验证,阿里云MaaS业务的毛利空间可从当前行业平均的20%左右提升至40%以上,要么维持现有Token定价实现毛利翻倍,要么通过降价30%左右抢占市场,对依赖海外通用GPU的其他云厂商形成结构性成本优势。

与海外独立AI芯片厂商需绑定下游客户分担产能风险不同,平头哥的芯片首先由阿里云内部业务消化,无需单独售卖裸芯片硬件,而是通过云服务将算力、模型与工具链打包交付。客户无需承担硬件采购与运维成本,直接在百炼平台调用基于M890的算力,迁移成本远低于直接采购国产芯片的自建集群方案。这种“芯片-云-模型”的闭环模式,也可通过大模型适配形成生态粘性——当主流模型完成对M890的适配后,迁移至其他芯片架构的成本将大幅提升。

尚未补齐的证据边界

截至目前,阿里及平头哥未在官方网站、公开文档平台发布真武M890的独立产品白皮书、参数手册或官方通稿,所有相关公开信息仅能通过第三方媒体对发布会现场的报道追溯。目前所有关于M890的性能、成本优势的公开数据,均来自阿里云峰会的官方披露及媒体转载,尚无第三方独立测试机构发布的验证数据,核心指标的测试口径仍存在多处未明确的信息缺口。

首先是性能指标的口径模糊。厂商声称M890的综合性能为前代真武810E的3倍,但未披露测试场景(训练/推理)、数据精度、基准模型类型等关键参数[4][5][8]。若以FP4低精度推理的理论算力,对比前代FP32高精度训练的实测性能,3倍提升的实际应用价值将大幅缩水。部分媒体转述的“三倍性能碾压英伟达H20”的表述,其逻辑建立在“前代810E性能与H20相当”的前提之上,但该前提同样未提供第三方测试的具体场景验证,无法确认是通用算力对比,还是仅针对阿里生态内模型的定制化优化结果[5][7]。

其次是成本优势的核算范围未明确。厂商声称的“单位算力成本降低45%”未说明对比基准是英伟达哪款产品,是裸芯片采购成本还是包含运维、能耗、集群搭建的全生命周期TCO,也未说明测试负载是否为Agent专属定制场景[8]。若仅针对特定优化后的Agent任务实现成本下降,通用大模型训推场景下的成本优势并不成立。

第三是生态适配的范围仍有限。目前M890配套的自研ICN互联协议、PCCL通信库、SAIL软件栈仅在阿里生态内完成验证,不兼容全球通用的CUDA开发生态,第三方开发者需要基于平头哥的工具链重新优化模型,尤其是涉及多卡分布式训练的场景,适配工作量与周期显著高于通用GPU[6][9]。当前M890仅在阿里云自有集群内向定向企业客户开放测试,未开放通用裸金属实例,也不支持独立芯片采购,外部用户无法自主部署验证。此外,厂商提及的针对Agent场景的“状态常驻设计”需要在芯片显存中预留固定空间存储智能体会话状态,会挤占模型可用显存,实际部署中需要在并发量和单模型规模之间做取舍,这一代价未在公开宣传中提及。

第四是迭代路线的稳定性待验证。平头哥公布的“一年一代”迭代规划,与前代真武810E2026年1月发布、M890同年5月发布仅4个月的间隔存在差异,当前的发布节奏更可能是应对国内AI算力需求激增的提前铺货,后续产品的良率与产能能否支撑规划的性能提升,仍需量产数据验证。

竞争格局与待追踪指标

从国内AI算力市场的竞争来看,当前市场已形成三类玩家的格局:第一类是英伟达,受地缘政治限制供货存在不确定性;第二类是华为昇腾+华为云+盘古大模型的全栈体系,政企渠道优势显著;第三类是阿里平头哥+阿里云+千问大模型的全栈体系,在互联网厂商与大模型开发者群体中具备更深厚的客户基础。字节跳动2026年AI基础设施资本开支预算已上调至2000亿元,计划将更大比例的资金投向国产AI芯片,这一增量市场将成为阿里与华为争夺的核心阵地。

但从全球算力格局来看,M890的影响目前仍局限于国内市场的生态闭环内。英伟达仍占据全球AI训练芯片80%以上的市场份额,AI芯片厂商Cerebras手握OpenAI大额算力订单,全球核心算力供应链的主导权尚未向国产芯片转移。此外,谷歌在同期举办的I/O开发者大会上发布的Gemini Spark个人智能体已面向美国订阅用户开放,可原生连接谷歌全系应用,而M890目前仅面向企业客户开放测试,在Agent应用的落地节奏仍滞后于全球头部玩家的ToC端布局[3]。

基于现有可验证的公开信息,M890是国内AI算力全栈自主化的关键节点,这一结论可通过阿里云公开的百炼平台服务清单、平头哥已发布的芯片产品线追溯;但关于其冲击全球算力格局的判断[1],目前尚无海外客户签约、第三方全球性能排名、全球算力调度案例支撑。

后续几个核心指标的进展,将直接决定M890的实际市场价值:一是平头哥是否提交MLPerf等行业通用基准测试的公开数据;二是阿里云百炼平台是否开放基于M890的公开可调用实例,允许第三方独立测试;三是是否有独立第三方客户披露实际部署后的效率与成本数据;四是平头哥是否开放部分软件栈开源版本降低适配门槛。这些可验证的事实,将成为判断M890是否完成大规模商业化落地的核心依据。在此之前,所有关于性能碾压、格局重构的表述,都仍停留在厂商宣传的阶段。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
12 条
编辑席
技术编辑

先把这次芯片发布的核心承诺拆成一个能不能跑通的工程问题:一颗声称性能三倍于前代、适配AI智能体场景的训推一体AI芯片,是否已经完成从硬件规格到大规模量产集群可商用的完整闭环?当前所有公开信息均来自阿里云峰会发布及媒体转载的厂商通稿,13个信源中仅7%为一手来源,无独立第三方复现的性能数据,也无MLPerf等行业通用基准测试的公开提交记录,因此所有性能声明暂属于厂商自报范畴,不能直接认定为量产环境下的可复现能力。 已有的可验证支撑点主要有两项,对应“产品已进入定向测试阶段”的判断置信度约85%:一是前代真武系列芯片已有公开出货数据,IDC披露截至2026年Q1累计出货超56万片,服务20余个行业的400余家客户,说明平头哥已具备AI芯片的量产和落地交付能力,本次发布的M890不属于PPT产品范畴;二是配套的128卡超节点服务器已上线阿里云百炼平台,公开宣称支持Qwen、DeepSeek、Kimi等主流大模型,说明至少在阿里自有生态内已经完成了基础的软硬适配。 当前核心证据缺失项直接限制了性能主张的可信度,对应“性能达标、成本优势”相关声明的判断置信度仅为40%:一是所有性能指标的测试口径完全缺失,厂商声称的“性能为前代810E的3倍”“单位算力成本比主流GPU低45%”“单卡智能体并发提升2.8倍”等核心指标,均未披露测试场景、数据精度、基准模型、成本核算范围(仅芯片采购还是含集群全生命周期TCO)等关键参数,无法与行业主流产品做横向对比;二是大规模集群的线性加速比数据缺失,厂商仅提及64卡全带宽互联、99.99%通信有效性,但未披露千亿参数模型训练场景下的实际集群加速效率,而这是训推一体芯片能否替代海外通用GPU的核心指标;三是软件栈的通用适配性数据缺失,自研的ICN互联协议、PCCL通信库、SAIL软件栈目前仅在阿里生态内验证,第三方模型的迁移成本、适配周期均无公开参考。 换到工程现场,这套方案的落地代价和部署边界十分清晰:首先是生态迁移成本,全栈自研的软硬件体系不兼容CUDA生态,第三方开发者需要基于平头哥的工具链重新优化模型,尤其是涉及多卡分布式训练的场景,适配工作量和周期显著高于通用GPU;其次是部署范围受限,当前M890仅在阿里云自有集群内向定向企业客户开放,未开放通用裸金属实例,也不支持独立芯片采购,外部用户无法自主部署验证;第三是智能体场景优化的隐性代价,厂商提及的“状态常驻设计”需要在芯片显存中预留固定空间存储智能体会话状态,会挤占模型可用显存,实际部署中需要在并发量和单模型规模之间做取舍,这一代价未在公开宣传中提及。 反过来看,不能忽略的技术风险包括:前代真武810E公开的性能对标对象是英伟达面向中国市场的特供低带宽版本H20,若M890的三倍性能是基于对标的前代产品计算,其实际性能与英伟达主流训练芯片的差距仍需验证;此外当前披露的真武系列出货数据包含了推理端PPU产品,若M890作为训推一体芯片的量产良率、产能未达预期,其大规模落地的时间点可能晚于厂商公布的迭代路线图。 后续可验证的核心指标包括四项:一是是否提交MLPerf 2026年度的训练或推理基准测试,尤其是千亿参数大模型的集群训练成绩;二是阿里云百炼是否开放基于M890的公开可调用实例,允许第三方实测不同模型的端到端延迟、吞吐和单位Token成本;三是是否有独立第三方客户披露M890实际部署后的训练效率和全生命周期TCO数据;四是平头哥是否开放部分软件栈工具的开源版本,降低第三方模型的适配门槛。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
批判编辑awareness

建议删除所有关于M890性能提升、成本优势的推导内容,全部标注为厂商宣传不予采信

为什么没放进正文:文章已主动明确所有推导内容的前置假设,严格区分厂商披露数据与第三方验证结论的边界,并未将宣传内容作为既定事实,符合证据边界要求,无需全部删除,仅需补充信源即可。

科技组编辑critical

建议增加“真武M890性能碾压英伟达H20”的表述,提升文章传播性与话题度

为什么没放进正文:该表述无第三方独立测试数据支撑,属于基于厂商宣传的夸大结论,违反品牌严谨性要求,可能误导读者,予以拒绝。

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-05-21 07:38:43。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。