返回深度
商业分析相关追踪2026-05-25 07:25:0612 min read

DeepSeek V4-Pro API永久降价75%适配昇腾

Aione 编辑部
Editorial Desk
2026-05-25 07:25:06 12 分钟

DeepSeek V4-Pro永久降价的隐线:资本补贴下的定价博弈与预期前置

2026年5月底,国内开发者社群最热闹的讨论并非某款模型的能力突破,而是DeepSeek那张略带玩梗意味的官方公告:原定5月31日结束的V4-Pro API 2.5折优惠,不会恢复原价,而是直接调整为原定价的1/4永久生效,6月1日正式执行[2]。一夜之间,“价格屠夫重出江湖”“国产算力闭环成型”“AI推理成本进入分时代”的判断铺满了科技媒体与行业社群,75%的永久降幅、0.025元/百万token的极端低价、适配昇腾的国产替代叙事,共同构成了“大模型成本革命”的完美脚本。

但在这些高度一致的共识背后,三个关键的逻辑断层被绝大多数叙事刻意忽略:价格口径的选择性呈现、技术降本的独立验证缺口、以及国产算力支撑的时间线倒置。当我们把所有可验证的事实对齐后会发现,这次被定义为“技术降本里程碑”的定价调整,本质是融资关键期的一次战术选择:用一级市场的资本补贴换市场份额与估值数据,把未来的技术预期前置为当前定价的合理性依据,而非底层成本结构重构后的自然结果。

被包装的价格:75%降幅的口径陷阱

关于降价的核心事实已经得到多源交叉确认:DeepSeek确实将V4-Pro API的定价从原标准价下调75%,且覆盖范围仅限开发者与企业用户的API服务,普通用户的免费调用权益不受任何影响[2][6]。但传播中被反复强调的“75%降幅”与“0.025元/百万token全球最低价”,本身是两层经过精心选择的口径,与用户实际承担的平均成本存在显著差距。

第一层口径偏差在于降幅的对比基准。75%的降价幅度,对比的是DeepSeek自身V4-Pro API发布时的初始定价,而非全球同级别大模型的行业均价。也就是说,这个数字只代表DeepSeek自身的定价调整幅度,不代表其与竞品的价差比例——当时国内同级别闭源模型的API定价普遍在5-8元/百万token的加权区间,DeepSeek调整后的加权价格仅比竞品低30%-50%,远未达到“低一个数量级”的程度[7][10]。

第二层更隐蔽的偏差在于极端低价的场景限制。传播中反复提及的0.025元/百万token,仅适用于“缓存命中的输入场景”——即用户调用的内容已经存在于模型的KV缓存中,不需要重新计算的部分[5][11]。这一价格对应的是极端窄场景:比如重复调用固定知识库的RAG应用、上下文高度重合的Coding Agent、话术标准化的智能客服,这类场景的缓存命中率可以达到90%以上,极端案例甚至能到96%[6]。但对于占开发者调用量大头的通用场景——比如全新长文档处理、多轮动态对话、定制化内容生成,缓存命中率普遍低于30%,这类用户实际承担的是缓存未命中场景下的定价:输入3元/百万token,输出6元/百万token,与0.025元的极端低价相差两个数量级。

我们以通用型AI应用的典型调用结构为假设场景进行演示:20%缓存命中输入、40%未命中输入、40%输出。该结构仅用于展示不同场景下的价格口径差异,不代表DeepSeek平台或全行业的实际调用量分布。按该假设测算,用户实际加权成本约为3.6元/百万token,相比初始定价的降幅仅为45%左右,远低于宣传口径的75%。更值得注意的是,目前DeepSeek并未公开不同场景下的调用量占比,用极端窄场景的低价覆盖整体定价叙事,本质是用指标错配制造“全面降价”的认知错觉。

除此之外,还有一个被几乎所有叙事忽略的细节:这次“永久降价”并没有调整实际交易价格,只是修改了价格标签。原本的2.5折促销价与调整后的1/4正价完全相同,唯一的区别是“促销价”随时可能恢复原价,而“正价”取消了未来涨价的预期[6][12]。这个看似文字游戏的调整,恰恰是本次定价策略的核心目的之一:给开发者注入稳定预期,避免大家因为担心促销结束后涨价而迁移到其他平台,为后续的用户留存与调用量增长托底。

技术降本叙事的证据缺口

为了解释永久降价的合理性,官方与第三方叙事给出的第一个核心依据是V4架构的技术突破:作为1.6万亿参数的混合专家(MoE)模型,V4-Pro通过架构优化将单次推理算力消耗降至前代的27%,显存占用大幅压缩,因此具备了降价的成本基础[9]。但这一说法目前仅为厂商单方声明,尚未形成可验证的证据链。

首先,“单次推理算力降至前代27%”的测试口径完全不透明。厂商并未披露该数据对应的负载场景、并发量、上下文长度、激活专家数等核心参数,也没有任何第三方研究机构或独立开发者复现出生产级高并发负载下的该性能数据[1][12]。公开可下载的V4开源权重仅能在CUDA环境下跑通基础推理,针对长上下文、动态流量的生产级调度优化代码并未开源,无法确认其宣称的算力下降是否包含了KV缓存管理、MoE负载均衡、集群容错机制的额外开销——而这部分开销在真实生产环境中往往会占据总推理成本的30%以上。

其次,即便架构优化的效果完全属实,也无法解释“限时优惠转永久降价”的决策时间点。V4系列的架构优化在2026年4月模型发布时就已经全部完成,当时DeepSeek推出的是限时2.5折优惠,且明确说明优惠结束后将恢复原价[2][12]。如果架构优化真的能支撑75%的永久降幅,那么在4月发布时直接推出该定价即可,完全不需要先做限时优惠再临时调整。这一时间差恰恰说明,架构优化带来的成本下降在4月就已经全部释放,且不足以支撑永久降价的决策,否则不会有“恢复原价”的最初约定。

还有一个容易被忽略的隐性成本:定价调整后,DeepSeek并未公开承诺API服务等级(SLA)与原定价时保持一致,也未披露是否存在不同优先级的流量调度规则[11]。对于大模型API服务而言,排队延迟、请求拒绝率、99分位响应时间都是核心服务质量指标,若低价流量被设置为更低的调度优先级,本质是将算力成本转化为用户的时间成本,并非真实的总成本下降。

昇腾适配的时间线倒置

比架构降本更具传播力的叙事,是“适配华为昇腾摆脱英伟达依赖,从根源上降低算力成本”。这一说法完美契合了国产替代的产业预期,也成为了“DeepSeek拥有长期成本优势”的核心支撑。但当我们把时间线对齐后会发现,这一叙事存在明确的逻辑断层:尚未落地的产能,不可能支撑已经生效的定价。

所有提及昇腾适配的公开信源都明确说明,DeepSeek V4对华为昇腾NPU的批量部署要到2026年下半年才能落地,目前仅完成了模型的基础适配,并未进入大规模生产环节[7][9][12]。而本次降价的生效时间是2026年6月1日,这意味着至少在降价后的3-6个月内,支撑V4-Pro API的算力主体仍然是英伟达GPU。更关键的是,当前英伟达算力的采购成本正处于上行通道:H100一年期租赁价格较2025年10月上涨40%,Blackwell系列租赁价两个月内涨幅达48%,算力采购成本不仅没有下降,反而在持续上升[11][12]。将半年后才可能落地的产能作为当前降价的成本支撑,本质是把未来的预期收益前置为当前决策的合理性依据。

即便下半年昇腾完成批量部署,其降本逻辑也尚未形成可验证的工程闭环。目前没有任何公开数据证明,昇腾集群的单位token推理成本低于英伟达H100集群,甚至未披露两者在吞吐、延迟、硬件良品率上的对比数据。万亿参数MoE模型的推理高度依赖万卡级集群的调度能力、算子优化成熟度、故障排查机制,而昇腾生态在这些方面的工程积累远不如已经发展了十几年的CUDA生态。有行业测算显示,若昇腾集群的整体推理效率比H100低20%以上,那么硬件采购成本的优势就会被工程损耗完全抵消[7][12]。

若昇腾适配真能为同级别大模型带来70%以上的成本下降,其他已完成昇腾适配的厂商理论上具备推出同等幅度降价的空间。截至2026年5月底,智谱、MiniMax等已公开完成昇腾适配的同级别大模型厂商,旗舰API加权定价仍维持在5-8元/百万token区间,最高永久降幅未超过30%[10]。需说明的是,该对比未排除各厂商商业化定位、盈利目标、算力储备规模等策略差异的影响,仅作为国产算力降本强结论的辅助参考,而非确定性反证。

真正的动因:融资窗口期的估值诉求

当技术与算力的两条降本逻辑都存在明确证据缺口时,另一条时间线的重合度却高得异常:本次永久降价的决策,恰好落在DeepSeek700亿元人民币新一轮融资的收官阶段。

多个信源显示,DeepSeek目前正在推进的700亿元融资已进入谈判最后阶段,投前估值达450亿美元,若成功落地将创下中国AI企业单笔融资纪录[3][7][12]。对于一级市场的大模型标的而言,核心估值指标从来不是短期盈利,而是调用量增速、开发者留存率、市场份额三个核心数据。本次降价落地当日,V4-Pro的日调用量较前一日增长近四倍,达到136亿token,这个数据放到融资谈判桌上,比任何技术故事都更有说服力[11]。

从成本结构的拆解也能印证补贴的逻辑:目前V4-Pro的推理仍主要依赖英伟达GPU,行业通用的单位推理成本约为10-15元/百万token(未命中场景),远高于当前3元/百万token的输入定价与6元/百万token的输出定价;缓存命中场景的单位成本也在0.1元/百万token左右,是0.025元定价的4倍[7][11]。也就是说,当前每一百万token的调用,DeepSeek都要承担0.075元到9元不等的亏损,降价当日四倍的调用量增长,直接意味着单日亏损规模扩大了四倍。这个亏损无法通过技术降本或算力替代覆盖,只能由融资资金承接,本质是用一级市场的资本红利直接补贴下游开发者,换市场份额与估值数据。

有一手行业情报直接指出,本次降价的核心支撑是融资补贴而非技术侧的结构性降本[1]。这个判断也能从创始人的公开表态中得到侧面印证:DeepSeek创始人梁文锋在融资沟通中明确承诺,将超60%的融资用于国产算力集群建设,坚持开源路线不优先考虑短期商业化[3][12]。这意味着,至少在融资消耗完毕之前,DeepSeek的定价策略不需要以盈利为目标,核心诉求是尽可能抢占市场份额,建立开发者生态粘性,为下一轮融资或商业化落地争取时间。

产业链的结构性重构:有人受益,有人出局

无论降价的核心动因是什么,这个级别的定价调整已经开始重构大模型API市场与算力产业链的利润分配,影响并非“全行业受益”的普惠式红利,而是清晰的结构性分化。

最直接的受益方是两类B端用户:一类是缓存命中率极高的垂直应用开发者,比如Coding Agent、RAG知识库、智能客服厂商,这类用户的token成本原本占研发预算的30%-50%,降价后单位调用成本直接降至原有的1/4,甚至比自建推理集群低20-50倍[7][11]。以缓存命中率96%的Coding Agent为例,18.7亿token的调用成本从此前的近2000元降至不到50元,直接覆盖了多数创业公司的AI研发预算阈值,且API迁移的技术成本极低,预算迁移动力极强[6]。另一类是此前租用英伟达GPU做推理部署的中小企业,这类用户原本每月单卡租赁成本超2万元,仅能支撑约2000万token的推理需求,现在用DeepSeek API可支撑超8亿token的调用,性价比差距足以驱动全量迁移[11]。

直接受损的是两类市场主体:一类是同级别大模型厂商,国内的智谱、MiniMax等厂商若不跟进同等幅度的降价,将在6个月内流失30%-40%的开发者客户,尤其是预算敏感的创业公司;但若跟进降价,就意味着要同步进入亏损补贴阶段,对资金储备的要求大幅提升。而OpenAI、Anthropic等海外厂商受美国算力成本与合规要求限制,完全无法跟进同等幅度的降价,其在国内的中小开发者客户将出现批量流失[7][10]。另一类是纯“囤英伟达卡转租赚差价”的算力租赁中间商,协创数据、利通电子等厂商的H100/A800租赁价格已经出现15%-20%的下调,毛利从30%压缩至10%以下,其核心的“拿卡溢价”逻辑随着国产替代与API降价的双重冲击正在崩塌[11]。

而算力产业链的中间层则出现了明显的分化:与DeepSeek等头部模型厂商形成深度绑定、采用token分成模式的算力基础设施厂商,比如为DeepSeek提供超过3000个液冷机柜的润泽科技,反而因调用量增长带动机柜上架率提升,AIDC业务毛利率维持在48%以上[11]。华为昇腾生态则成为了本次降价的最大潜在受益方,V4-Pro作为首个适配昇腾的万亿参数旗舰模型,已经成为国产算力的标杆案例,带动了拓维信息、盛合股份等昇腾产业链厂商的订单预期,但目前这些预期仍以估值逻辑为主,尚未形成实质性的大规模交付[12]。

边界与后续验证节点

需要明确的是,对降价动因的上述推演并不否定DeepSeek V4系列的长期技术价值:其公开的KV缓存压缩、混合注意力架构优化确实具备降低长上下文推理成本的潜力,开源模型权重也为社区复现提供了基础,长期来看确实存在技术降本的空间;同时,大规模调用量带来的资源利用率提升,也可能摊薄固定算力成本,但这属于运营层面的规模效应,并非底层技术突破带来的结构性降本,无法支撑长期的、无边界的价格下探。

当前所有推演的核心不确定性,都集中在2026年下半年的三个关键节点,这三个节点的事实将直接推翻或强化现有结论: 第一,700亿元融资的实际到账情况。若融资规模不及预期,或对赌条款中包含盈利相关要求,那么当前的补贴策略将无法长期维持,定价存在回调的可能; 第二,昇腾集群的批量部署进度与实际性能表现。若2026年Q3末昇腾算力占DeepSeek总推理算力的比例超过30%,且第三方实测的单位token推理成本降至2元/百万token以下,那么技术降本的逻辑将真正成立; 第三,企业级客户的留存与付费情况。当前的调用量增长多为开发者尝鲜,只有连续12个月的企业年框合同签约量与续费留存率达到预期,才能证明市场份额具备粘性,而非短期的价格敏感型流量。

除此之外,还有几个辅助观测指标可以用来校准判断:国内其他头部大模型厂商的定价调整幅度、纯英伟达算力租赁商的季度出租率与毛利变化、非缓存场景下的调用量占总调用量的比例、API服务的99分位延迟与可用性的公开SLA承诺。在这些数据落地之前,所有关于“AI成本进入地板价”“商业化落地障碍扫清”的判断,都只是未被验证的预期而已。

大模型行业的竞争早已跨过了“比谁参数多”的技术竞赛阶段,进入了“比谁能撑到盈亏平衡”的资本竞赛阶段。DeepSeek的这次定价调整,只是这场长程赛跑中的一次战术下注:用当下的亏损换未来的市场份额,用未来的技术预期换当下的资本支持。至于这张用75%降幅画出来的大饼,最终能不能变成行业真实的成本红利,答案要等潮水退去之后才会揭晓。

References

参考资料

Editorial Room
这篇文章怎么过稿
5 位编辑过稿
总编辑主笔
编写方式
总编辑主笔
校稿清单
9/9
资料引用
12 条
编辑席
技术编辑

先把这次永久降价的核心叙事拆成一个可验证的技术问题:75%的降幅,到底来自架构优化、国产算力适配带来的单位推理成本结构性下降,还是商业端的补贴策略?从当前公开的工程证据来看,并无足够支撑技术降本的可复现数据,适配昇腾的降本逻辑也尚未形成生产级闭环,当前的价差大概率不具备技术侧的可持续性。 厂商宣称的两项核心降本依据均存在明确的证据缺口。其一,“V4架构将单次推理算力降至前代27%”仅为厂商单方声明,未披露测试的负载场景、并发量、上下文长度、激活专家数等核心口径,目前无第三方研究机构或独立开发者复现出生产级高并发负载下的该性能数据;开源的V4权重仅能在CUDA环境下跑通基础推理,针对长上下文、动态流量的生产级调度优化代码并未开源,无法确认其宣称的算力下降是否包含KV缓存管理、MoE负载均衡、集群容错机制的额外开销,而这部分开销在真实生产环境中往往会占据总推理成本的30%以上。其二,“适配昇腾降低算力成本”的叙事存在明显的时间差与工程缺口:目前仅确认模型完成昇腾NPU的基础适配,未披露昇腾集群在DeepSeek当前推理资源池中的占比,多个信源明确昇腾的批量部署要到2026年下半年,这意味着6月1日生效的降价政策,在执行初期完全无法依托国产算力的成本优势;同时,昇腾生态的推理算子优化、万卡级集群调度、故障排查的工程复杂度远高于成熟的CUDA生态,目前无公开数据证明昇腾集群的单位token推理成本低于英伟达H100集群,甚至未披露两者在吞吐、延迟、硬件良品率上的对比数据,国产算力降本的逻辑尚未形成可验证的工程闭环。 换到工程现场,即便后续昇腾完成批量部署,也不存在无代价的成本下降。首先,当前宣传的0.025元/百万token的极端低价,高度依赖90%以上的缓存命中率,仅适用于RAG知识库、重复调用历史上下文的固定Agent等窄场景,对于需要处理全新长文档、多轮动态对话的通用场景,缓存未命中的输入价格为3元/百万token,输出6元/百万token,与极端低价相差两个数量级,普适性非常有限;厂商未主动披露不同场景下的调用量占比,用极端低价覆盖整体定价叙事的做法,存在明显的指标错配。其次,降价后V4-Pro的日调用量较之前增长近四倍,目前官方文档中未明确降价后的API服务等级是否与原定价时一致,也未披露是否存在不同优先级的流量调度规则,这意味着部分低价调用可能存在排队延迟、请求被拒绝的概率提升,本质是将算力成本转化为用户的时间成本,并非真实的总成本下降。最后,万亿参数MoE模型的推理成本高度依赖负载均衡,大规模异质流量下的专家闲置、流量倾斜带来的算力浪费,往往会抵消架构优化带来的算力下降,这一损耗目前也未被纳入厂商公开的成本测算中。 需要明确的是,上述判断不否认V4系列的长期技术价值:其公开的KV缓存压缩、混合注意力架构优化确实具备降低长上下文推理成本的潜力,开源模型权重也为社区复现提供了基础,长期来看确实存在技术降本的空间;同时,大规模调用量带来的资源利用率提升,也可能摊薄固定算力成本,但这属于运营层面的规模效应,并非底层技术突破带来的结构性降本,无法支撑长期的、无边界的价格下探。 当前判断的置信度为75%,核心不确定性来自昇腾批量部署后的实际成本表现。后续可验证的核心指标包括:2026年Q3末DeepSeek公开的昇腾算力占总推理算力的比例、第三方复现的昇腾与H100集群上V4-Pro的单位token推理成本差值、非缓存场景下的调用量占总调用量的比例、API服务的99分位延迟与可用性的公开SLA承诺。

过稿轨迹
挑选题查资料分头看碰一下写稿子挑刺gate_reviewrepair_revision改稿子收尾
校稿清单
篇幅是否够讲透有没有反对意见资料够不够宣传腔是否清掉引用是否标清结构是否清楚证据是否撑得住内部讨论是否收住视角是否单薄
被压下去的反对意见
张畅critical

建议弱化“资本补贴而非技术降本”的核心结论,调整为“技术与资本共同支撑降价”,避免引发品牌方投诉。

为什么没放进正文:该结论是文章核心批判价值所在,弱化后会沦为无观点通稿,不符合内容定位,且所有判断均标注了验证边界,无诽谤风险。

Reader Signal

这篇文章对你有帮助吗?

只收集预设选项,不开放评论,不公开展示个人反馈。

选择一个判断,也可以附加一个预设标签。

发布于 2026-05-25 07:25:06。本文为原创深度报告,未经授权不得转载。观点仅代表编辑部独立判断,不构成投资建议。