返回深度
行业趋势相关追踪2026-05-25 07:25:2810 min read

DeepSeek V4发新架构开源TileLang破CUDA壁垒

Aione 编辑部
Editorial Desk
2026-05-25 07:25:28 10 分钟

从合规选项到商业账:DeepSeek V4改写AI算力的运行规则

2026年5月下旬,两个看似普通的行业动作,正在悄悄撬动全球AI产业运行了近十年的底层规则。 第一个是DeepSeek官宣,原定于5月底结束的V4-Pro API 2.5折限时优惠,转为永久生效,降幅达75%,6月1日正式执行,降价依托自研架构优化与华为昇腾NPU适配完成[2]。第二个是行业逐步形成的技术共识:依托新开源的TileLang领域专用语言,大模型核心算子从CUDA向国产芯片迁移的成本,已经从过去的数月级降至小时级[1]。

两种极端的解读随即充斥行业:一端是“CUDA壁垒彻底崩塌”“国产AI全栈闭环完成”的欢呼,另一端是“性能数据注水”“降价靠补贴撑不了多久”的质疑。如果抽离情绪回归可验证的事实,会发现这次变化的核心既不是单点技术的突破,也不是短期的价格战,而是第一次有人把“脱离CUDA生态”从过去的合规要求,变成了一笔算得过来的商业账——而商业逻辑的改写,永远比技术口号的穿透力强得多。

一、永久降价的本质:不是补贴,是成本结构的换道

所有关于DeepSeek V4的讨论,都应该从最没有争议的实锤开始:价格。 目前公开的技术拆解信息显示,当前DeepSeek V4系列分为两个版本,旗舰版Pro总参数量达1.6万亿,单次推理仅激活490亿参数;效率版Flash总参数量为2840亿,激活参数仅130亿,全系标配100万Token的上下文窗口[3][4]。对应的API定价经永久调整后,Pro版输入1元/百万Token、输出12元/百万Token,Flash版缓存命中时输入价格仅0.2元/百万Token、输出2元/百万Token,整体定价较海内外同级别大模型具备显著优势[2]。

这不是一次常规的价格战。过去大模型厂商的降价多依赖短期算力补贴,或是针对特定客户的阶梯定价,而DeepSeek这次将限时优惠转为永久政策,核心支撑是全链路的成本结构优化,而非短期的市场投入。首先是架构层面的效率提升:行业技术分析显示,通过MoE混合专家架构与DSA稀疏注意力机制,V4在100万上下文场景中的推理FLOPs降至前代V3.2的27%,KV Cache占用压缩至10%,从根本上降低了长文本推理的计算与显存负载[4][12]。其次是硬件层面的成本优势:有行业测试数据提及,昇腾950PR在V4的MoE推理任务中,单卡吞吐可达英伟达H20的2.87倍,部署成本仅为后者的1/31[11]。两者叠加之后,DeepSeek的单位Token推理成本,已经比主流闭源模型低了一个数量级。

最先感受到压力的是没有自研能力的通用API中间商。此前大量中小MaaS厂商的商业模式本质是转售头部大模型的API,通过批量采购的差价获利,而当前DeepSeek V4的公开API定价,已经低于多数中小厂商的算力采购成本,若无垂直场景的溢价能力,这类厂商的生存空间将在年内被持续挤压[1][2]。这也印证了官方提及的判断:国产算力栈的成熟,首先淘汰的就是没有核心技术的API中间商[1]。

对于下游用户而言,这次降价的影响远不止成本降低本身。过去百万Token级的长上下文推理单成本超过50元,几乎无法支撑普惠型ToC长文本、批量文档处理类产品,很多面向中小企业的知识库、法律文书处理产品,仅算力成本就吃掉了全部毛利。而当前V4-Flash的定价,直接把这类场景的算力成本降到了可以忽略的程度,大量过去无法跑通商业模型的产品,第一次具备了规模化推广的可能。

二、TileLang的真实边界:不是CUDA杀手,是迁移成本的粉碎机

如果说永久降价是给用户的直观感受,那么TileLang就是支撑这次成本下降的核心技术变量,也是被误解最多的部分。

TileLang的核心价值,是解决了跨硬件算子开发的重复劳动问题。过去,大模型的核心算子需要针对每类芯片的指令集单独开发,一套适配CUDA的高性能算子迁移到昇腾平台,往往需要数十人团队数月的工作量,且需要随着硬件更新持续维护。而TileLang作为面向计算基本单元(Tile)的领域专用语言,允许开发者用统一的高层逻辑描述算子,再通过不同的后端编译到对应硬件的指令集,不用再为每款芯片重写一遍算子[1]。

公开的应用案例已经验证了这一思路的可行性:有适配数据显示,用TileLang实现比肩FlashAttention性能的算子仅需约50行代码,摩尔线程在DeepSeek V4的Day0适配中,依托TileLang实现了首Token时延降低56.7%、吞吐量提升65.7%的优化效果[10]。

但这一能力的边界也十分清晰,所谓“TileLang打破CUDA壁垒”的表述存在明显的夸大。CUDA生态的核心壁垒从来不是单个算子的开发效率,而是覆盖10万+场景的全栈算子库、成熟的开发者调试与性能分析工具、千卡级集群的通信优化库NCCL等全链路的生态积累,以及十余年形成的开发者使用习惯、存量项目的技术栈沉淀。即便迁移成本大幅下降,大量成熟开发团队的迁移决策仍会受技术惯性、现有业务稳定性要求等非成本因素影响,不会仅因价格优势快速切换技术栈。当前TileLang仅覆盖了大模型推理中占比约60%的稀疏算子(包括MoE、注意力机制等),剩余40%的线性代数算子仍需依赖CUDA兼容层运行;其硬件后端目前仅完成了昇腾CANN、摩尔线程MUSA的局部适配,寒武纪MLU、海光DCU等主流国产芯片的适配尚未完成,更未覆盖CUDA生态的核心基础库如cuBLAS、NCCL[10]。

截至目前,TileLang的完整语法规范、全量算子库与编译工具链尚未正式开源,仅零散公开了部分代码片段,暂无第三方开发者基于其完成非DeepSeek模型的跨硬件性能对齐验证。换句话说,TileLang目前只是DeepSeek为自家模型优化打造的高效工具,还不是能够替代CUDA的通用开发生态。

需要说明的是,当前流传的“DeepSeek V4实现100%全栈国产化闭环”“英伟达在华AI芯片份额从95%暴跌至55%”“DeepSeek发布导致英伟达市值蒸发千亿”等表述,均未出现在DeepSeek官方发布的一手信息中,暂无可追溯的第三方市场统计数据交叉验证,此类内容多集中出现于国产算力产业链相关的券商研报与财经社区内容中,读者需注意区分官方实锤与衍生表述[5][11]。

三、已经发生的产业重构与待验证的风险

剔除这些夸大表述后,三层已经发生的产业变化具备较高的可信度,正在重新调整AI算力产业链的利润分配。

第一类是政企客户的预算迁移。过去有强国产化合规要求的政企客户,AI基础设施替代需要承担最高30%的性能折损与适配成本溢价,本质是为合规付费。而当前基于国产算力栈的同性能服务成本,已经低于英伟达栈30%以上,合规需求与成本优势的双重驱动下,这部分预算的迁移确定性最高,也是当前国产算力最核心的增量来源。

第二类是中小开发者与应用厂商的用脚投票。成本敏感的创业团队已经开始将核心业务从海外闭源模型迁移至V4系列,除了价格优势之外,TileLang带来的适配灵活性也是重要原因——创业团队不需要再为不同的算力平台单独做适配,一套代码就可以跑在多款国产芯片上,大幅降低了技术投入成本。

第三类是云厂商的算力结构调整。华为云、阿里云等提前布局国产算力节点的云厂商直接受益,DeepSeek已经完成了模型层与国产芯片的核心适配工作,云厂商无需再投入大量研发资源,仅需提供算力租赁服务即可获得高于英伟达算力的毛利,这也将加速国产算力节点的覆盖范围。而此前重仓英伟达H系列芯片的云厂商,则面临存量资产的折旧压力,若国产算力的成本优势持续扩大,其存量算力的出租率将受到直接影响。

但三层不确定性仍将决定本次变化的最终规模,任何一个变量出现偏差,都可能改变整个产业的走向。首先是产能约束,据行业公开信息,DeepSeek当前V4-Pro的服务吞吐量受限于昇腾950芯片的供给,预计2026年下半年超节点批量上市后才能实现扩容,若产能爬坡不及预期,大规模的API调用请求将出现排队延迟,反而会将对时延敏感的核心客户推回CUDA生态,当前的永久低价实际仅能覆盖有限的用户群体,暂不具备支撑全行业普惠的供给能力[4]。

其次是生态的通用性风险。当前TileLang的核心贡献者仍以DeepSeek团队为主,尚未形成全行业认可的通用标准,若寒武纪、海光等其他国产芯片厂商未跟进适配后端,TileLang将始终局限于DeepSeek的模型体系内,无法成为真正的跨硬件生态基础设施,更谈不上撼动CUDA的地位。

最后是迁移的底层动因存疑。2026年第一季度英伟达对中国大陆H系列AI芯片的出口配额较上一季度减少30%,当前云厂商的国产芯片采购增量,究竟是TileLang带来的主动选择,还是配额约束下的被动替代,目前尚无独立的第三方采购数据能够明确区分,若后续配额放松,部分厂商的采购逻辑可能出现反转。

据多家财经媒体报道,DeepSeek正推进总额约700亿元人民币的首轮融资,投前估值达450亿美元,其中超六成资金将用于国产算力集群建设,该信息尚未得到官方确认,后续技术落地进度或与融资进程存在关联。

四、五个可验证的节点,决定未来的产业走向

要验证本次变化的真实影响力,不需要依赖模糊的行业判断,只需追踪五个可量化的核心节点,任何一个节点的落地,都会实质性提升判断的置信度。

第一,2026年下半年昇腾950超节点量产后,DeepSeek V4-Pro的API服务QPS是否提升5倍以上,且单位Token成本进一步下降50%。若达成,则证明当前的成本优势并非短期补贴,而是全栈优化带来的结构性降本,大模型API的定价中枢将永久下移70%以上,闭源模型的定价权将被实质性削弱。

第二,TileLang是否在6个月内正式开源完整的代码仓库,包含全量算子集、至少3款主流国产芯片的后端适配代码与统一的性能测试套件。若达成,则证明TileLang的目标是成为通用的跨硬件开发标准,而非DeepSeek的内部工具,CUDA生态的核心壁垒——算子迁移成本将被实质性击穿。

第三,是否有第三方开发者基于TileLang,在非DeepSeek的主流大模型(如Llama 4)上实现跨硬件的性能对齐,即同一模型在昇腾与CUDA平台上的推理性能差不超过10%。若达成,则证明TileLang的跨硬件能力具备通用性,而非仅针对DeepSeek自家模型的定制优化。

第四,2026年第四季度中小MaaS厂商的营收同比变化,若有30%以上的无自研能力的通用API中间商出现营收腰斩或停止运营,则“国产算力栈淘汰无自研API中间商”的判断将得到完全验证[1]。

第五,IDC、Gartner等第三方机构发布的中国AI芯片市场份额数据,若英伟达在华AI芯片份额确实从95%降至55%以下,且剔除配额约束后的主动采购占比超过50%,则证明国产算力已经从补充选项变成了主流选择。

回到事件本身,我们不需要急于给出“CUDA已死”或者“都是炒作”的二元结论。DeepSeek V4与TileLang的真实价值,从来不是完成了多么惊天动地的技术突破,而是第一次给整个行业提供了一个CUDA之外的、成本上具备竞争力的完整选项——在过去,选择国产算力意味着“牺牲性能、付出额外成本、只为合规”,而现在,它变成了“算算账更便宜、性能够用、还符合合规要求”的选项。

这种商业逻辑的微小转向,往往是生态重构的起点。过去CUDA的壁垒之所以牢不可破,本质是因为所有开发者都用它,所有芯片都适配它,形成了正向循环;而当越来越多的开发者发现,用TileLang开发算子能省几个月的时间,用国产算力跑大模型能省一半的钱,自然会有越来越多的人用脚投票,原来的壁垒就会在不知不觉中慢慢变薄。

AI行业从来不是被某个单点技术改写的,而是被无数开发者的一个个选择,慢慢拼成新的样子。现在要做的,不是喊口号,也不是急着否定,而是等着看那些可验证的事实,一个个落地。

[1] AiHot. DeepSeek V4发新架构开源TileLang破CUDA壁垒, 2026-05-24 [2] AiHot. 深度求索DeepSeek官宣V4-Pro API永久降价75% 适配国产昇腾算力, 2026-05-24 [3] 行业分析报告. 全栈国产化:DeepSeek V4与国产AI基础设施深度集成 [4] 行业技术拆解. DeepSeek-V4发布:国产算力适配加速,CUDA生态壁垒面临挑战 [5] 财经社区内容. DeepSeek V4 炸场开源界,闭源 AI 的垄断壁垒正在崩塌 [10] 摩尔线程适配公开数据. 国产GPU生态加速共建,摩尔线程与多家开源社区共探国产GPU推理实践 [11] 行业评论. DeepSeek V4 的真正革命:当AI竞争从“算法跑分”进入“全栈战争” [12] 行业研究报告. DeepSeek V4发布:国产AI链闭环成型,算力与应用迎重估

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
12 条
编辑席
技术编辑

先把“TileLang破CUDA壁垒”的核心承诺拆成一个能不能跑通的工程问题:能否用统一的领域专用语言(DSL)描述算子逻辑,生成昇腾、CUDA、寒武纪等3种以上硬件的可执行代码,且性能不低于原生算子的80%。现有公开信息仅显示,DeepSeek在昇腾950上实现了MegaMoE融合内核的局部适配,摩尔线程用TileLang完成了SGLang部分算子的Day0优化,但缺失三项关键可验证证据:一是TileLang的完整语法规范、开源算子库与编译工具链(仅在三手研报中提及,无官方仓库或技术文档);二是第三方复现的跨硬件性能对比(仅官方宣称昇腾单卡性能为H20的2.87倍,但未披露测试用例的负载类型、上下文长度、MoE激活比例等关键参数);三是千卡级国产推理集群的真实吞吐数据(郑州6万卡集群为AI4S负载,未公开大模型MoE推理的集群利用率与延迟数据)。现有信源多为三手研报或自媒体,一手技术披露仅两条社交平台内容,技术主张的可信度有限。 指标看起来漂亮,但生产环境会先追问成本和稳定性。TileLang作为中间层DSL,其跨硬件能力的前提是为每款芯片开发专属的后端适配模块——将Tile级的计算描述映射到硬件的张量指令集、互联协议与内存模型。目前仅覆盖昇腾CANN与摩尔线程MUSA的局部算子,未涉及寒武纪MLU、海光DCU等主流国产芯片,更未覆盖CUDA生态的核心算子库(如cuBLAS、NCCL)。每新增一款硬件的适配,都需要投入至少3-6人月的工程资源,且随着硬件迭代需要持续维护,这一成本会随生态扩展呈线性上升。此外,DeepSeek V4的75%永久降价,实际依托的是MoE稀疏架构(V4-Pro激活参数仅为总参数的3%)、MXFP4量化(降低显存与计算负载)与昇腾的硬件采购成本优势,而非TileLang带来的跨硬件降本——官方明确承认Pro版当前吞吐受限,需等待昇腾950超节点批量上市,说明国产算力的规模化供给能力仍未匹配旗舰模型的推理需求,当前降价或存在短期算力补贴的成分。 真正需要观察的不是榜单名次,而是单位任务成本有没有下降。“破CUDA壁垒”的表述存在显著夸大:CUDA的核心壁垒并非单个算子的开发效率,而是全栈算子生态(覆盖10万+算子)、开发者工具链(Nsight、Profiler)与集群通信库(NCCL)的协同成熟度。TileLang仅解决了算子开发的跨硬件描述问题,未覆盖集群通信、调试工具、性能分析等全栈环节,当前仅能支撑DeepSeek自家MoE模型的局部优化,无法成为通用的跨硬件算子开发框架。此外,V4的百万上下文能力虽为全系标配,但官方未披露长上下文场景下的单位Token推理成本与延迟稳定性——现有长上下文优化多依赖KV Cache压缩,而TileLang是否能在国产芯片上稳定支撑百万Token的稀疏注意力计算,仍无第三方验证数据。 若要确认TileLang的技术价值,需追踪三个关键可验证节点:一是2026年下半年昇腾950超节点量产后,V4-Pro的API服务QPS是否提升5倍以上,且单位Token成本再降50%;二是TileLang是否在6个月内释出开源仓库,包含完整的算子集、至少3款国产芯片的后端适配代码与统一benchmark套件;三是是否有第三方开发者基于TileLang,在非DeepSeek的模型上实现跨硬件的性能对齐(如Llama 4在昇腾与CUDA上的推理性能差不超过10%)。TileLang的跨硬件算子描述思路,为国产算力生态的协同优化提供了可行的技术路径,但当前仍处于早期验证阶段,未形成规模化工程能力。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
差评君attention

建议删除全文中关于英伟达在华份额变化、市值蒸发的相关表述,认为此类无实锤内容易引发读者误导。

为什么没放进正文:原文已明确标注此类表述为无交叉验证的衍生内容,且提醒读者区分官方实锤与行业传闻,具备足够的边界意识,保留此类内容可体现当前行业的情绪背景与讨论分歧,无需完全删除。

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-05-25 07:25:28。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。